Convergence Labs LLMの限界を超える「AIResearchのLM2」―メモリモジュールを統合し、長文コンテキスト推論を強化

自然言語処理（NLP）の分野でTransformerモデルは、大規模言語理解から機械翻訳まで、さまざまなタスクでのブレークスルーをもたらしています。しかし、その一方で長い文脈を取り扱う推論能力には依然として課題がありました。LM2（Large Memory Model）は、既存のTransformer性能を保ちつつ長文コンテキスト推論を大幅に強化する新たなアーキテクチャとして開発されました。

LM2の最大の特徴は、Transformerのデコーダのみを基盤としつつ、「メモリモジュール」を追加した点です。メモリモジュールは長期的なコンテキスト表現を蓄積・管理する補助的な役割を担い、クロスアテンションを介して入力埋め込みと連携します。また入力ゲート、出力ゲート、フォゲットゲートといった動的ゲート機構により、重要な情報を選別・更新できる仕組みを導入しています。このメモリモジュールが、Transformersの核となる処理を妨げることなく補完し、長文の文脈や推論に必要な情報をロスなく保持し続ける設計になっています。

メモリからの情報はクロスアテンションを介してリアルタイムに取得され、入力埋め込みとの相互作用によって、より豊富なコンテキストや過去の情報がミスなく活用されます。またこのメモリは動的に更新され、最新の情報を適宜反映しながらも不要な情報を削除するため、効率的かつ正確な長文推論が可能となります。

実際にLM2は、BABILongなどの大規模コンテキストを扱うベンチマークで驚異的な結果を示しています。最大128Kトークンに及ぶ入力長をこなし、シングルステップからマルチホップ推論、リレーショントラッキングなど複雑な推論課題まで高精度を達成しました。さらにMMLUのテストでも、追加のメモリモジュールが言語モデル全体の汎用的性能に与える影響はむしろプラスに作用し、トレーニング収束は若干遅れるものの、より優れた性能に結びついています。

特筆すべきはテスト時にもメモリが適応的に更新され、最初は一般的な情報に注意を向ける一方、トークン生成が進むにつれて、質問内容や必要な知識に応じて注目箇所が変化する様子が観測されることです。これはメモリが動的に推論プロセスに組み込まれ、徐々に関連する知識を浮上させることで適切なテキスト生成を導いていることを示しています。

LM2は、従来のTransformerの強みを活かしながらメモリ拡張によって長文コンテキスト推論を革新するモデルとして登場しました。大量のトークンを伴う高度な言語タスクや、一貫性ある推論を必要とするシナリオで力を発揮し、既存のLLMが抱える課題を解決する可能性があります。

TagsAIUnited Kingdom