大規模MoEモデルの推論を最適化するアーキテクチャ「AFD」を解説します。メモリ帯域を占有するAttentionと演算負荷の高いFFNを物理的に分離し、それぞれを最適なハードウェアで効率的に処理することで推論パフォーマンスを最大化します。