NVIDIA、視覚・音声・言語を統合し効率9倍のAIエージェント向けモデル「Nemotron 3 Nano Omni」発表

Style ← お好みの文体を選べます。選択は自動で記憶されます

NVIDIAが発表した「Nemotron 3 Nano Omni」——小さなAIが、目と耳と口を持った

NVIDIA、視覚・音声・言語を統合し効率9倍のAIエージェント向けモデル「Nemotron 3 Nano Omni」発表 インフォグラフ

みなさん、「マルチモーダルAI」という言葉を聞いたことはありますか?

これは、文字だけでなく、画像も、音声も、映像も、まとめて理解できるAIのことです。人間が目で見て、耳で聞いて、言葉で考えるように、AIにも複数の「感覚」を持たせようという技術ですね。

このたびNVIDIAが発表した「Nemotron 3 Nano Omni」は、まさにそうした能力を1つのモデルに詰め込んだオープンマルチモーダルモデルです。視覚(vision)、音声(speech)、言語(language)の3つの機能を統合し、テキスト・画像・音声・映像という4種類の情報を扱うことができます。

ここで注目していただきたいのが、「Nano」という名前です。これは大規模なクラウドサーバーではなく、エッジデバイスやロボティクスプラットフォームといった、現場に近い小型の機器での動作を想定していることを意味しています。つまり、工場のロボットや、手のひらサイズの端末の中で、このAIが直接動くわけです。

性能面でも驚きがあります。同等のオープンomniモデルと比較して、スループットが9倍。スループットとは、一定時間内にどれだけ多くの処理をこなせるかという指標です。9倍ということは、同じ時間でこれまでの9倍の仕事ができるということですね。

さらに、このモデルはオープンモデルとして開発者コミュニティに公開されています。つまり、世界中の開発者が自由にこの技術を使って、独自のアプリケーションを作ることができるのです。

では、私たちの暮らしにどう関わってくるのでしょうか。

日本はご存じのとおり、製造業やロボティクスの分野で世界をリードしてきました。エッジデバイス向けに設計されたこのモデルは、工場の組み込みAIエージェントや産業用ロボットの「頭脳」として活用できる可能性があります。

また、9倍のスループット向上は、リアルタイム性が求められる場面で大きな意味を持ちます。たとえば、接客ロボットがお客様の表情を見ながら会話する、介護ロボットが利用者の声のトーンから体調の変化を察知する——そうした応用が、より現実的になってきたと言えるでしょう。

オープンモデルであることも見逃せません。日本の開発者コミュニティがこの技術を基盤として、日本語や日本の文化に最適化したマルチモーダルAIアプリケーションを構築する道が開かれています。

小さなボディに、目と耳と口を備えたAI。それが現場で即座に判断し、行動する時代が、すぐそこまで来ています。

※ 本発表は 2026 年 4 月 28 日付 (NVIDIA 公式 blog)。5 月時点で AWS SageMaker JumpStart 経由でも利用可能となっており、Coactive 社の独立ベンチマークでも「タギング動画 9.91 時間/h・$14.27」と最安水準が確認されている。

運営: AI Quotidia 編集部

海外 AI ニュースを毎朝、日本語で解説する個人運営メディアです。記事は AI を活用して作成し、人手による確認・編集を経て公開しています。