Googleが公開した拡散ベースのテキスト生成LLM「DiffusionGemma」を解説。従来の自己回帰型とは異なり、ノイズから文章を彫り出すプロセスを可視化し、OCRタスクでの検証結果を紹介する。
拡散LLM DiffusionGemmaをModalで動かし、ノイズ除去の途中経過をブラウザで可視化してみた
編集メモ: 拡散ベースのLLMは生成プロセスを可視化・制御できる可能性があり、OCRや特定の生成タスクにおいて従来の自己回帰型とは異なるアプローチを提供します。