ノルウェー国立図書館、独自のAI言語モデル開発に着手

要約

ノルウェー国立図書館は、ノルウェー語を理解する大規模言語モデル(LLM)の開発を進めており、AIのトレーニングデータパイプラインには2PBのHuawei製フラッシュストレージを使用しています。プロジェクトの責任者であるマリウス・ハスネス氏は、パリで開催されたHuaweiのIDフォーラム2026でこのプロジェクトについて語り、商業的なLLMプロバイダーがローカルなノルウェー語のLLMを開発していないと指摘しました。彼は、独自の言語を持つ国は、その言語でトレーニングされた sovereign LLM がなければ不利であると強調しました。

ノルウェーの文化省は、国内で最大のデジタルコレクションを持つこの図書館に、独自のAI(LLM)を構築するよう指示しました。図書館は2005年からコレクションのデジタル化を進めており、現在は60PBのユニークなデータを保有しています。このデータは、ノルウェーの書籍や新聞、ウェブページを含むもので、著作権コンテンツでのLLMトレーニングも許可されています。

LLMのトレーニングは現在も進行中で、データの品質やパイプラインのスループットが課題となっています。データの取り込みからクレンジング、形式の正規化、検証、準備までのプロセスを経て、ノルウェーのスパコンであるSigma2 Oliviaシステムでトレーニングが行われます。ハスネス氏は、ノルウェー語のLLMに対する評価ツールやガバナンスの問題についても言及し、これらの課題に対処するためにチームが取り組んでいることを説明しました。


元記事: https://www.blocksandfiles.com/flash/2026/05/22/norways-2-petabytes-of-huawei-flash-storage-and-llm-training/5244910

公開日: Mon, 25 May 2026 19:37:57 +0000


この記事はAIアシスト編集により作成されています。

📰 元記事: 元記事を読む

コメントする