疑似量子コンピュータ(QUBO)を用いて、MoE型LLMのエキスパート配置を最適化する研究。キャッシュ置換アルゴリズム(LRU)の代替として、学習型の予測器を活用することで推論効率を高める試みです。実験結果と具体的な手法の考察を共有します。
疑似量子コンピュータ(QUBO)で LLM を速くできるか? RTX 4090 で DeepSeek-V2-Lite を使って 調べてみた
編集メモ: 疑似量子コンピュータ(QUBO)を用いてLLMの推論効率を最適化する手法は、計算リソースの限界を突破し、MoE型モデルのポテンシャルを最大限に引き出すための先端的な試みです。