LLMのカスケード構成(安いモデルと高いモデルの使い分け)における、ルーティング決定の適正化についての考察。arXiv論文「Forced Deferral」に基づいた議論。