RAGの評価指標「faithfulness」における自己採点の信頼性を検証。生成モデルと判定モデルに同一モデルを使用した際と、別のモデルを使用した際の実測データを比較し、自己採点の限界と独立した判定の重要性を解説します。