LLMの評価時に生じる「テストだと察する」問題を解決するため、OpenAIが公開した「Deployment Simulation」の手法を解説。本番ログをそのまま新モデルにリプレイさせる評価手法について紹介します。