LLM推論におけるメモリボトルネックの解決を目的とした論文「PHOTON」を紹介。富士通・理研AIPが発表した、メモリ効率と高速生成を両立させる階層的自己回帰モデリングの技術的背景と、その仕組みを解説します。