NVIDIA、Nemotron 3 Nano OmniでマルチモーダルAIの性能刷新

エヌビディア（NVIDIA）は2026年4月28日、ドキュメントや音声、映像などを統合的に処理する新モデル「NVIDIA Nemotron 3 Nano Omni」を発表した。同モデルはエンタープライズ向けエージェントの基盤技術として位置づけられ、複雑な文書分析や長時間のメディア理解において、既存のオープンウェイトモデルを大きく上回る精度とコスト効率を実現する。これはAIが単なるテキスト処理から、現実世界の多様なデータソースを自律的に解釈・推論する段階へ移行する重要な転換点となる。

技術的には、ハイブリッドなMamba-Transformerアーキテクチャを採用し、視覚エンコーダー「C-RADIOv4-H」とオーディオエンコーダー「インコ-TDT-0.6B-v2」を統合。ベンチマークでは、文書理解の「OCRBenchV2」で65.8点、「MMLongBench-Doc」で57.5点を記録し、競合であるQwen3-Omniを凌駕した。また、スループットは最大9倍、単一ストリーム推論速度は2.9倍に向上し、BF16やFP8など複数の精度フォーマットに対応する。

これまでのマルチモーダルモデルは、画像とテキストの組み合わせが主流だった。しかし同モデルは、段階的なマルチモーダル調整と強化学習を用いることで、高密度な画像や混在するメディア形式の長文脈をネイティブに処理可能にした。これにより、GUI操作やコンピュータ使用エージェントの精度も大幅に向上し、OSWorldベンチマークで47.4点を記録するなど、実務的なタスク実行能力が強化された。

日本企業にとっても、膨大な社内ドキュメントや会議録、監視映像などをAIで効率化したいニーズは高い。同モデルはハギングフェイスからダウンロード可能であり、自前での微調整や導入が容易だ。特に製造業や金融業界では、複雑な図面や契約書、長時間のミーティング録音からの情報抽出ニーズがあり、この高効率・高精度モデルは業務自動化の加速に寄与すると期待される。

今後は、より広範なオムニモーダル理解モデルとしての進化が期待される。エヌビディアは、視覚言語システムを拡張することで、AIエージェントが人間と同様に多様な感覚情報に基づき判断を下す環境を整備する。この技術革新は、生成AIの応用範囲をオフィス業務から、より複雑な物理世界とのインタラクションへと広げる原動力となるだろう。

元記事を読む（Hugging Face）→

NVIDIA、Nemotron 3 Nano OmniでマルチモーダルAIの性能刷新

関連記事

この記事も読まれています