NVIDIAが600万件の多言語推論データセットを公開——日本語も対応、オープンエコシステムを支援

NVIDIAが600万件の多言語推論データセットを公開

NVIDIAは2025年8月20日、600万件規模の多言語推論データセット「Nemotron Post-Training Dataset V2」を公開した。フランス語・スペイン語・ドイツ語・イタリア語・日本語の5言語に対応しており、オープンウェイトモデルの発展を支援することを目的としている。

データセットの特徴と構築手法

今回のデータセットは、既存の英語推論データをベースに5言語へ翻訳したものだ。注目すべきは翻訳アプローチで、ユーザーのプロンプトとモデルの回答は対象言語に翻訳しつつ、推論チェーン(Chain-of-Thought)は英語のまま保持するという設計を採用している。英語の事前学習で蓄積された知識を最大限に活かすための工夫だ。

大規模言語モデル(LLM)による機械翻訳は近年めざましい進歩を遂げているが、合成データ生成においては独自の課題があることも明らかになった。NVIDIAの研究チームは以下の問題を指摘している。

  • LLMは一般的な機械翻訳テストセット(FLORESなど)と比べ、SFT(教師ありファインチューニング)データセットの翻訳においてハルシネーション(誤情報生成)が起きやすい
  • オープンソースLLMの翻訳品質とハルシネーション率は、入力の長さが増すにつれて著しく低下する

これらの問題に対処するため、いくつかの品質管理メカニズムを導入した。テキストを改行単位で分割して1行ずつ翻訳すること、コードブロックや翻訳不要な行はスキップすること、特殊な括弧記号「〘〙」で翻訳結果を囲むフォーマットを強制して抽出精度を高めること、そしてfastTextによる言語識別でオフターゲットデータを除去することなどが実施されている。これらの結果、約55,567件(全多言語サンプルの約1.1%)が除外された。

同時公開:Nemotron Nano 2 9B

データセットと合わせて、新モデル「NVIDIA Nemotron Nano 2 9B」も発表された。エッジデバイスやRTX環境での動作を想定した小型・高効率モデルで、以下の特徴を持つ。

項目 詳細
パラメータ数 90億(9B)
アーキテクチャ ハイブリッド Transformer–Mamba(Mamba-2 + 少数のアテンション層)
スループット 同クラスの主要モデル比で最大6倍の高速トークン生成
コスト削減 「思考バジェット」の調整により推論コストを最大60%削減
対象用途 カスタマーサービス、サポートチャットボット、分析コパイロット、エッジデプロイ
ライセンス nvidia-open-model-license

ハイブリッドTransformer–Mambaアーキテクチャは、純粋なTransformerモデルと同等の精度を保ちながら高いスループットを実現できる点が特徴だ。モデルの重みはHugging Faceで公開されており、build.nvidia.comでAPIエンドポイントのデモも試用可能。NVIDIA NIMとしても近く提供される予定だ。

日本語コミュニティへの意義

日本語が対応言語に含まれた点は、国内の研究者や開発者にとって朗報だ。600万件規模の推論データセットが日本語で利用可能になることで、日本語対応の高性能推論モデルのファインチューニングがより容易になると期待される。NVIDIAはモデル重み・学習ツール・学習データをともに公開することで、オープンウェイトモデルエコシステム全体の底上げを図っている。

※ この記事は海外ソースをAIで自動翻訳・要約したものです。翻訳・要約の過程で意味の相違や情報の欠落がある場合があります。正確な情報は必ず元記事をご確認ください。本記事の内容に基づいて行った行為について、運営者は一切の責任を負いません。