Qwen2.5-Coderを使い、同じコードを51回レビューさせた実証実験。多数決による精度向上の神話を検証し、LLMの指摘における「正しさ」と「しつこさ」の関係性を実データで解説。