Gemma 4のMTP(Multi-Token Prediction)におけるspeculative decodingの仕組みを解説。本体モデルと密結合した小型モデル(drafter)により、一度の重み転送で複数トークンを推論し、生成速度を最大3倍にする技術背景を要約。