2026年5月に発表された「Audio-Visual Intelligence」論文をはじめとする、最新のマルチモーダルAI研究を調査。画像・言語に加え、動画・音声・センサーデータを統合的に扱うAudio-Visual LLMの進化を解説します。