ノルウェー国立図書館、独自のAI言語モデル開発に着手

要約

ノルウェー国立図書館は、ノルウェー語を理解する大規模言語モデル（LLM）の開発を進めており、AIのトレーニングデータパイプラインには2PBのHuawei製フラッシュストレージを使用しています。プロジェクトの責任者であるマリウス・ハスネス氏は、パリで開催されたHuaweiのIDフォーラム2026でこのプロジェクトについて語り、商業的なLLMプロバイダーがローカルなノルウェー語のLLMを開発していないと指摘しました。彼は、独自の言語を持つ国は、その言語でトレーニングされた sovereign LLM がなければ不利であると強調しました。

ノルウェーの文化省は、国内で最大のデジタルコレクションを持つこの図書館に、独自のAI（LLM）を構築するよう指示しました。図書館は2005年からコレクションのデジタル化を進めており、現在は60PBのユニークなデータを保有しています。このデータは、ノルウェーの書籍や新聞、ウェブページを含むもので、著作権コンテンツでのLLMトレーニングも許可されています。

LLMのトレーニングは現在も進行中で、データの品質やパイプラインのスループットが課題となっています。データの取り込みからクレンジング、形式の正規化、検証、準備までのプロセスを経て、ノルウェーのスパコンであるSigma2 Oliviaシステムでトレーニングが行われます。ハスネス氏は、ノルウェー語のLLMに対する評価ツールやガバナンスの問題についても言及し、これらの課題に対処するためにチームが取り組んでいることを説明しました。

元記事: https://www.blocksandfiles.com/flash/2026/05/22/norways-2-petabytes-of-huawei-flash-storage-and-llm-training/5244910

公開日: Mon, 25 May 2026 19:37:57 +0000

この記事はAIアシスト編集により作成されています。

📰 元記事: 元記事を読む

要約

関連記事

長期モデルの安全性と整合性：新たな課題と対策

AI生成論文が急増！arXivでの実態を徹底分析

AIがWordPressの脆弱性を発見！GPT5.6の新たな活用法

コメントする コメントをキャンセル

コメントするコメントをキャンセル