単一GPUでvLLM、reranker、embeddingを稼働させる際、MPSを用いて共有運用していた。しかし、高負荷テストの連続実行時に処理が停止する問題が発生。その原因調査と解決策の検討プロセスを解説する技術記事。
GPU使用率100%なのに生成が進まない。単一GPUにvLLMと推論サービスを同居させてハマった話
編集メモ: 単一GPU上で複数の推論サービスを同居させる際は、MPSによる共有設定の限界を考慮し、負荷試験を通じてリソース競合やデッドロックのリスクを慎重に管理・回避する必要があります。