Vision Transformerの自己教師あり学習の代表格であるMAE(Masked Autoencoders)の論文を解説。高マスク率と非対称設計がなぜ画像学習で有効なのか、その本質を掘り下げます。