AlibabaのAI研究チームQwen(Tongyi Lab)が、テキスト・画像・音声・動画を理解し、音声も生成できるオムニモーダルモデル「Qwen3.5-Omni」を発表しました。音声と映像の理解能力はGemini 3.1 Proを上回るとアピールされています。
「Qwen3.5-Omni」が登場、文章生成・コード生成・映像認識・音声合成・ウェブ検索が可能
AlibabaのAI研究チームQwen(Tongyi Lab)が、テキスト・画像・音声・動画を理解し、音声も生成できるオムニモーダルモデル「Qwen3.5-Omni」を発表しました。音声と映像の理解能力はGemini 3.1 Proを上回るとアピールされています。