自作NNエンジンのLLMパート解説。量子化などの技術用語を整理し、CPUおよびGPU(CUDA)環境でのLLM動作について述べる。筆者の専門外である可能性を前提としつつ、モデルサイズの圧縮手法を中心に解説する。