iPhone上でのLLMランタイムの性能を測定。初速のバースト性能だけでなく、10分間の連続生成時のデコード速度変化を検証。コールドスタートから持続的なパフォーマンスまで、各ランタイムの特性を比較。
iPhoneのローカルLLM:GPUは短距離、Neural Engineは長距離(熱スロットリング実測)
編集メモ: iPhoneにおけるLLMの実行性能を熱スロットリングの観点から詳細に理解し、モバイル環境でのAI実装における持続的なパフォーマンス最適化の勘所を掴みましょう。