LLMの誤答検出と検索品質のトレードオフを検証した事例。自己採点指標の限界と、検索経路(A-RAG vs Hybrid)変更による忠実性・網羅性の改善結果を報告し、システム設計における現実的な判断基準を提示。