拡散モデルのDenoising Networkにおいて、U-NetではなくMLPを使うとどうなるのかを検証。空間局所性の保持とスキップ接続の重要性を軸に、なぜU-Netが画像生成に適しているかを理論的に解説します。