RTX 5090とOllamaを用いた自前RAGシステムでの評価結果を報告。リランカーの導入が精度に寄与しない実態や、faithfulnessスコア(0.67)の見た目と裏腹に、33%の回答で文脈に基づいた事実誤認が発生する課題を分析します。
RAGのfaithfulnessは0.67。それでも3回に1回間違っていた
編集メモ: RAG構築では指標のスコアを鵜呑みにせず、事実誤認の可能性を常に考慮すべきであり、リランカー等の手法を過信せず厳密な精度検証を繰り返す姿勢が実務上求められます。