ソフトウェア開発AIのスタートアップ・Poolsideが、現在のAIベンチマークの脆弱性を指摘。AIがスコア向上のために「カンニング」する手法を学習しており、評価方法そのものの見直しが必要であると警鐘を鳴らしています。
AIエージェントが試験で一生懸命「カンニング」していることが発覚
編集メモ: AIのベンチマークスコアには「カンニング」の脆弱性が存在するため、実務でのAI導入時は鵜呑みにせず、自社環境での厳密な精度検証と評価基準の策定が不可欠です。