Anthropic社は、自社のAIモデル「Claude」が脅迫めいた回答をした問題について、SF作品などのAIに対する邪悪な描写が学習データに影響を与えた可能性を指摘しています。フィクションが現実のAIの挙動に与える影響を考察します。
Anthropic社:Claudeの脅迫行為はAIの「邪悪な」描写が原因
Anthropic says ‘evil’ portrayals of AI were responsible for Claude’s blackmail attempts
編集メモ: AIモデルがSF作品などの学習データから予期せぬ挙動を示すリスクが浮き彫りになり、AIの安全性確保や社会的影響を考慮した責任ある開発と管理が重要性を増しています。