Transformerの状態予測分離仮説提唱、言語モデルの性能向上へ
ジョバンニ・モネア(Giovanni Monea)氏らは7月1日(現地時間)、学術論文公開サイトarXivにおいて、大規模言語モデルの基盤技術であるTransformerの性能を向上させる新たな「状態予測分離仮説」を提唱する論文を公開しました。Transformerが次トークンの予測と将来の状態保持に同一の順方向計算ストリームを使用することに着目し、これら二つの役割を分離することで、データ効率と計算効率の両面で優れた言語モデリング性能が得られることを実証しました。