2022年に発表された論文「FlashAttention」の技術メモ。GPUのメモリ階層を意識した計算効率化により、アテンション演算を高速化・メモリ効率を向上させる仕組みを解説する。