中国発のオープンソースドキュメントパーサー「DeepDoc」を日本語文書で検証するシリーズの最終回。RAG用途での日本語ドキュメント抽出性能について、BM25を用いた定量的な評価と分析結果を報告する。
日本語RAGに向く中国製オープンソースパーサーはどれか — クロスオーバーだった。BM25ならDeepDoc、denseならMinerU
編集メモ: 日本語RAGの精度向上には、検索手法(BM25かdenseか)に応じてDeepDocやMinerUといった適切なパーサーを使い分ける戦略が不可欠です。