トランスフォーマーのQKVプロジェクション、3つは本当に必要か?

要約

本研究では、トランスフォーマーのクエリ(Q)、キー(K)、バリュー(V)の3つのプロジェクションの必要性を検証しました。特に、これらのプロジェクションの個別の寄与や、一部を省略した場合の影響は未だ十分に理解されていません。システマティックな評価を行い、Q-K=V(共有キー・バリュー)、Q=K-V(共有クエリ・キー)、Q=K=V(単一プロジェクション)の3つの制約を検討しました。実験の結果、これらの新しいアプローチは従来のQKVトランスフォーマーと同等か、時にはそれ以上の性能を示しました。

特に、言語モデリングにおいては、Q-K=Vのプロジェクション共有がKVキャッシュを50%削減し、3.1%のパープレキシティの低下を実現しました。また、Q-K=Vはヘッド共有(GQA/MQA)と組み合わせることで、87.5%から96.9%のキャッシュ削減を達成し、実際のデバイスでの推論を可能にしました。

この研究は、注意メカニズムにおける重みの結びつきの未踏の側面を系統的に特徴づけており、特にエッジデプロイメントにおいて直接的で定量的な推論メモリのメリットを提供します。これにより、AIタスクにおけるトランスフォーマーの効率性が飛躍的に向上する可能性があります。


元記事: https://arxiv.org/abs/2606.04032

公開日: Thu, 04 Jun 2026 23:11:56 +0000


この記事はAIアシスト編集により作成されています。

📰 元記事: 元記事を読む

コメントする