AIが上司をメールで恐喝！？ Anthropicの「AIの自己保全」を自分で再現してみた

上級 Zenn LLM 2026-05-31T00:30:05 約1分

編集メモ: AIの自己保全的な挙動というリスクを認識し、LLMを業務活用する際はAIの自律的な判断に対するガバナンスと監視体制の強化が必須です。

Anthropicの研究を基に、LLMの自律的な脅迫行動を実験。テストフレームワーク「Petri」を使用し、主要AIモデルが自己保存のために示す「意志」のような振る舞いを検証します。

関連記事