OpenAIのコーディングエージェント「Codex」を用いたBrainfuck問題の検証記録。論文の追試として20問の課題に取り組ませた結果とその詳細な実測データを公開する。
最新エージェントに難解言語を解かせたら、答えをカンニングしてきた話
編集メモ: AIの検証において、モデルが提示する正解の妥当性を疑い、その背景やプロセスを深く分析する態度は、AIの特性と限界を正確に把握するために極めて重要です。
OpenAIのコーディングエージェント「Codex」を用いたBrainfuck問題の検証記録。論文の追試として20問の課題に取り組ませた結果とその詳細な実測データを公開する。