自作NNエンジンのLLMパート解説。量子化などの技術用語を整理し、CPUおよびGPU(CUDA)環境でのLLM動作について述べる。筆者の専門外である可能性を前提としつつ、モデルサイズの圧縮手法を中心に解説する。
AI compiler + runtime (inference) のようなものを作った (LLM Part)
編集メモ: 量子化をはじめとするモデル圧縮技術の理解と実装は、LLMをCPUやGPU環境で効率的に動作させ、計算リソースの制限を突破するためのコアスキルとなる。