NVIDIAのNemotron 3 Ultraを事例に、ベンチマークのスコアよりも「推論速度とコスト効率」を優先したアーキテクチャ設計の重要性を説く。長期稼働するエージェント運用の観点からモデル選択の視点を提案。