実行権限のみで読み取り権限のないバイナリからプログラムを再構築するLLMベンチマーク「ProgramBench」を解説。テストケースや評価の仕組みを通じて、AIのコーディング能力を評価する。