Gray Swan AIらが実施した大規模AIエージェントのレッドチーミングコンペの結果をまとめた論文の要約。22のLLMを基盤とした44の運用シナリオにおけるセキュリティ上の課題や、実運用環境でのリスクを分析する。