要約
ノルウェー国立図書館は、ノルウェー語を理解する大規模言語モデル(LLM)の開発を進めており、AIのトレーニングデータパイプラインには2PBのHuawei製フラッシュストレージを使用しています。プロジェクトの責任者であるマリウス・ハスネス氏は、パリで開催されたHuaweiのIDフォーラム2026でこのプロジェクトについて語り、商業的なLLMプロバイダーがローカルなノルウェー語のLLMを開発していないと指摘しました。彼は、独自の言語を持つ国は、その言語でトレーニングされた sovereign LLM がなければ不利であると強調しました。
ノルウェーの文化省は、国内で最大のデジタルコレクションを持つこの図書館に、独自のAI(LLM)を構築するよう指示しました。図書館は2005年からコレクションのデジタル化を進めており、現在は60PBのユニークなデータを保有しています。このデータは、ノルウェーの書籍や新聞、ウェブページを含むもので、著作権コンテンツでのLLMトレーニングも許可されています。
LLMのトレーニングは現在も進行中で、データの品質やパイプラインのスループットが課題となっています。データの取り込みからクレンジング、形式の正規化、検証、準備までのプロセスを経て、ノルウェーのスパコンであるSigma2 Oliviaシステムでトレーニングが行われます。ハスネス氏は、ノルウェー語のLLMに対する評価ツールやガバナンスの問題についても言及し、これらの課題に対処するためにチームが取り組んでいることを説明しました。
公開日: Mon, 25 May 2026 19:37:57 +0000
この記事はAIアシスト編集により作成されています。
📰 元記事: 元記事を読む