Anthropicは、AIモデル内の複雑な数値データ(活性化値)を人間が理解できる自然言語に翻訳する「自然言語オートエンコーダー(NLAs)」を発表しました。AIの思考の可読性が高まります。
「Claude Mythos」が15年前のバグも発掘、Firefoxの修正数が一挙に15倍超に
編集メモ: Anthropicが発表した「NLAs」によりAIの判断過程が可読化されることは、AIのブラックボックス性を解消し、エンジニアが信頼性の高いシステムを構築する上で大きな前進となります。