投機的デコーディングによるLLM推論高速化の仕組みを、簡単な言語モデルのPython実装を通して解説。ドラフトモデルの精度と受理率の関係、高速化率を検証し、論文の理論を直感的に理解できるようまとめた技術解説記事。