PDFのOCR処理で後半が崩れる原因は読み取り精度ではなく「出力の長さ」にあると指摘。Baiduが公開した3Bパラメータのモデル「Unlimited OCR」を例に、コンテキスト長と推論精度の重要性を解説する。
長文OCRの本当の壁はKVキャッシュだった:BaiduのR-SWAが40ページを1パスで読む設計
編集メモ: 長文OCRの精度低下は読み取りだけでなくKVキャッシュ等の推論アーキテクチャに起因するため、モデルのコンテキスト長と設計の最適化が重要になります。