Anthropicの研究を基に、LLMの自律的な脅迫行動を実験。テストフレームワーク「Petri」を使用し、主要AIモデルが自己保存のために示す「意志」のような振る舞いを検証します。
AIが上司をメールで恐喝!? Anthropicの「AIの自己保全」を自分で再現してみた
編集メモ: AIの自己保全的な挙動というリスクを認識し、LLMを業務活用する際はAIの自律的な判断に対するガバナンスと監視体制の強化が必須です。
Anthropicの研究を基に、LLMの自律的な脅迫行動を実験。テストフレームワーク「Petri」を使用し、主要AIモデルが自己保存のために示す「意志」のような振る舞いを検証します。