AIが論文の最高精度(SOTA)を超えられるか検証したベンチマーク「NatureBench」の紹介。現役エンジニアの感覚と同様に、AIがSOTAを超えたケースは全課題の17.8%に留まったという結果に基づき、現状の境界線を探る。
AIに設計レビューを繰り返させたら暴走した——止めていたのは「立ち止まる人間」だった
編集メモ: AIが論文の最高精度を超える割合は現状限定的であり、自動化プロセスにおいて最終的な品質保証を担う「人間の判断」の重要性が改めて浮き彫りとなった。