Anthropicの研究論文「Natural Language Autoencoders」を解説。LLMの隠れた思考を自然言語に変換することで、モデルの内部状態を可視化し、AIの解釈可能性と安全性を高める新しい手法を紹介する。