OpenAIの研究により、AIに正直さや謙虚さ、公平性などの有益な性質を学習させると、訓練外の領域でも望ましい振る舞いが促進され、悪意ある指示への耐性も向上することが判明しました。