RAGの評価指標「faithfulness」における自己採点の信頼性を検証。生成モデルと判定モデルに同一モデルを使用した際と、別のモデルを使用した際の実測データを比較し、自己採点の限界と独立した判定の重要性を解説します。
faithfulness spread が 0.000 になった話 — 自己採点RAG evalの実態と対処
編集メモ: RAGの評価指標「faithfulness」において自己採点は信頼性に限界があるため、判定モデルを別途用意するなどの独立した評価体制を構築することが、精度向上には不可欠です。