要約
UnslothとNVIDIAの協力により、LLM(大規模言語モデル)のトレーニングが約25%速くなることが実現されました。この改善は精度に影響を与えず、Unslothの既存の2-5倍の速度向上に追加される形となります。新しいアルゴリズムはRTXノートパソコン、データセンターのGPU、DGX Sparkマシンで自動的に有効化され、Unslothを更新することで最新の改善を利用できます。
具体的には、パッキングされたシーケンスのメタデータをキャッシュすることでトレーニング速度が14.3%向上し、ダブルバッファによる非同期勾配チェックポイントを使用することで8%のスピードアップが実現されました。また、gpt-ossのトレーニングにおいては、MoEルーティング中にargsortとbincountを使用することで15%の速度向上が得られました。
これらの最適化は、モデルの各レイヤーで同じメタデータを繰り返し再構築することを避けることで、無駄な計算を削減し、トレーニングの効率を高めることに寄与しています。特にフォワードパスでの利点が顕著であり、今後のLLMトレーニングにおいて大きな影響を与えると期待されています。
元記事: https://unsloth.ai/blog/nvidia-collab
公開日: Thu, 07 May 2026 07:15:11 +0000
この記事はAIアシスト編集により作成されています。
📰 元記事: 元記事を読む