NVIDIAが公開した多言語対応の軽量ASRモデル「Canary-1B-v2」と「Parakeet-TDT-0.6B-v3」を紹介。精度・速度のトレードオフを改善し、商用利用可能なCC-BY-4.0ライセンスで提供される、文字起こし・翻訳特化モデルの概要と特徴を解説する。
【Nishika 論文サク読み 第12回】Whisperの10倍速: Canary-1B-v2 & Parakeet-TDT-0.6B-v3
編集メモ: NVIDIAの軽量ASRモデルは高速かつ商用利用可能なため、文字起こし・翻訳タスクにおいて、精度と速度のバランスを考慮したモデル選定の選択肢となります。