LLMの自己改善ループにおける「モデルが評価者を兼ねる構造」を分析。GANの歴史から得られる失敗モードの教訓を活かし、LLMの評価メカニズムを改善するための指針を考察する。