UCSDが開発したLLMの推論速度を改善する手法「DFlash」の概要。投機的デコーディングにおける計算コスト課題をブロック拡散技術で解決する研究について解説。