単一GPUでvLLM、reranker、embeddingを稼働させる際、MPSを用いて共有運用していた。しかし、高負荷テストの連続実行時に処理が停止する問題が発生。その原因調査と解決策の検討プロセスを解説する技術記事。