Apple ML Researchは2026年7月(現地時間)、大規模言語モデル (LLM) の核となるTransformerにおけるフィードフォワードネットワーク (FFN) の役割を再定義する研究論文「MemoryLLM: Plug-n-Play Interpretable Feed-Forward Memory for Transformers」を発表した。この研究は、FFNを自己アテンション機構から切り離し、コンテキストフリーなトークンごとのニューラル検索メモリとして機能させる新手法「MemoryLLM」を提案。これにより、LLMの推論効率向上と、特に機械学習モデルの「ブラックボックス」問題解明に貢献する可能性を示唆している。
Apple ML Researchによる今回の研究は、大規模言語モデル (LLM) の内部動作、特にTransformerアーキテクチャの中核をなすフィードフォワードネットワーク (FFN) の解釈可能性に深く切り込んでいる。現在のLLMは驚異的な性能を示す一方で、その内部構造が「ブラックボックス」と化しており、なぜ特定の出力が生成されるのかを人間が理解することは困難である。この課題に対し、本研究はFFNが持つ潜在的な「記憶」としての機能を再考し、モデルの透明性を高める新たな道筋を提示する。
提案された「MemoryLLM」は、従来のTransformer設計とは異なり、FFNを自己アテンション機構から独立させ、トークン埋め込みを直接使用してコンテキストフリーな形で学習させる。これにより、FFNはトークンごとのルックアップ (ToLs) として事前計算が可能となる。このアプローチは、必要な情報のみをVRAMとストレージ間でオンデマンド転送することを可能にし、LLMの推論におけるVRAM使用効率の大幅な向上と全体的な処理速度の改善に貢献する。これは、大規模なLLMをより多くのデバイスや環境で実行可能にする上で極めて重要な進歩と言える。
また、本研究は、従来のTransformerとMemoryLLMの間にある性能ギャップを埋めるためのハイブリッドアーキテクチャ「Flex-MemoryLLM」も導入している。これは、コンテキストフリーなトークンごとの埋め込みでFFNを訓練することで生じる潜在的な性能低下を緩和し、実用性と効率性のバランスを取ることを目的としている。
この研究は、機械的解釈可能性 (Mechanistic Interpretability) の分野において重要な意味を持つ。FFNを独立したメモリとして設計することで、モデルが特定の情報をどこに、どのように「記憶」し、それをどのように「検索」して利用しているかをより直接的に分析できるようになるためだ。これは、LLMの挙動を理解し、不具合の原因を特定する上で強力なツールとなるだろう。さらに、外部データベースから情報を取得するRAG (Retrieval-Augmented Generation) のアプローチと比較して、MemoryLLMはモデル「内部」に効率的な検索メカニズムを構築する試みであり、将来的にはこれらが統合された、より高度なハイブリッド型AIシステムの基盤となる可能性を秘めている。
実務応用においても、MemoryLLMは多大な可能性を秘める。推論効率の向上は、LLMの運用コスト削減に直結し、特に企業が大規模なモデルを導入する際の障壁を低減する。また、モデルの内部記憶がより明確になることで、特定の知識の追加や更新、あるいはモデルの「知識」のファインチューニングが容易になる可能性がある。これは、AIエージェントが長期的な記憶を持ち、複雑なタスクを連続的に実行するために不可欠な要素となり得る。本研究は、Ajay Jaiswal、Lauren Hannah、Han-Byul Kim、Duc Hoang、Arnav Kundu、Mehrdad Farajtabar、Minsik Choの各氏によって執筆され、国際会議ICML (International Conference on Machine Learning) で発表された。
参考: Apple ML Research — 2026年7月2日 09:00 (JST)