長文OCRの本当の壁はKVキャッシュだった：BaiduのR-SWAが40ページを1パスで読む設計

上級 Zenn LLM 2026-06-26T04:13:22 約1分

編集メモ: 長文OCRの精度低下は読み取りだけでなくKVキャッシュ等の推論アーキテクチャに起因するため、モデルのコンテキスト長と設計の最適化が重要になります。

PDFのOCR処理で後半が崩れる原因は読み取り精度ではなく「出力の長さ」にあると指摘。Baiduが公開した3Bパラメータのモデル「Unlimited OCR」を例に、コンテキスト長と推論精度の重要性を解説する。

関連記事