VLM(Vision Language Model)でOCRを構築する際の「座標の幻覚」問題について解説。実用化に向けた課題と、モデルが返す座標の信頼性問題を検証。