AIが論文の最高精度を超える？NatureBenchの衝撃

AIに設計レビューを繰り返させたら暴走した——止めていたのは「立ち止まる人間」だった

上級 Zenn AI 2026-06-27T11:16:05 約1分

編集メモ: AIが論文の最高精度を超える割合は現状限定的であり、自動化プロセスにおいて最終的な品質保証を担う「人間の判断」の重要性が改めて浮き彫りとなった。

AIが論文の最高精度（SOTA）を超えられるか検証したベンチマーク「NatureBench」の紹介。現役エンジニアの感覚と同様に、AIがSOTAを超えたケースは全課題の17.8%に留まったという結果に基づき、現状の境界線を探る。

AIに設計レビューを繰り返させたら暴走した——止めていたのは「立ち止まる人間」だった