VRAM不足でLLMが動かせない問題に対し、llama.cppのRPC機能を用いて2台のPCのGPUをネットワークで束ねる手法を解説。70B級モデルをローカルで動かす試み。
2台のGPUマシンを束ねてQwen2.5-72Bを動かす llama.cpp RPC入門
編集メモ: llama.cppのRPC機能でGPUリソースを分散・共有する手法は、高コストな機材を揃えずとも最新の巨大モデルを動かすことを可能にし、ローカルAI開発の経済性と拡張性を高めます。