AIが論文の最高精度(SOTA)を超えられるか検証したベンチマーク「NatureBench」の紹介。現役エンジニアの感覚と同様に、AIがSOTAを超えたケースは全課題の17.8%に留まったという結果に基づき、現状の境界線を探る。