1月7日に開催されたNVIDIA CEO ジェンスン・フアン CES 2025 基調講演の総論を本記事の前半に、後半に全文を掲載しています。
筆者総論:
NVIDIAの今回の基調講演では、仮想空間プラットフォーム「Omniverse」をハブとし、AIによる大規模なシミュレーション環境をハードウェアとソフトウェアの両面から展開する戦略が明らかにされました。特に、国内のモビリティ産業として初めてTOYOTAとの提携が発表され、大きな注目を集めています。
NVIDIAのジェンスン・フアンCEOは、自動運転自動車を「ロボット」と位置づけ、従来の20倍の性能を持つ「ロボットコンピューター」を搭載する計画を紹介しました。このコンピューターは、車載センサーで取得する膨大な映像データを処理し、Omniverse上で4D処理を行うという壮大なビジョンのもと開発されています。
Omniverseは、効率的な配置計画や人流シミュレーション、自動運転車やロボットの機械学習、さらには気象予測など、物理空間でのシミュレーションが困難な課題を解決するためのプラットフォームとして活用されています。今回、新たに「Cosmos」という高度なレンダリング技術を取り入れた視覚的表現の強化を目的とするOmniverseの拡張機能も発表され、さらなる進化が期待されています。
さらに、小型スーパーコンピューター「Project DIGITS」が発表されました。このプロジェクトは、最大2000億パラメーター規模のAIモデルをローカル環境で利用可能にするものであり、2台を並列稼働させることで最大4050億パラメーターのモデルを実現できます。価格は3000ドル (約47万円)。OpenAIのGPT-3は1750億パラメーター(175B)規模であるため、Project DIGITSが提供する計算能力の大きさがうかがえます。
これにより、従来クラウド環境でしか利用できなかった大規模AIモデルを個人や中小規模の研究機関でも活用できるようになり、「AIの民主化」を象徴する技術革新といえます。
NVIDIAはこれらの取り組みを通じて、仮想空間と現実世界をシームレスにつなぐ新たな可能性を提示し、AI・シミュレーション技術の未来を牽引しています。
しかしながら、トヨタがNvidiaと提携したことで、次世代モビリティの核となる頭脳の自社開発を断念したと捉えるならば、日本の仮想空間整備の遅れが産業に与えたダメージの一例として、今後の日本経済の動向を測る重要な指標となるように思われます。
仮想空間整備の遅れによって、日本の自動車産業は大きな正念場を迎えていると言えるでしょう。さらに、陸海空のモビリティ全般、ロボット産業(農林業を含む)、建築分野など、国内の主要な産業の多くが、TOYOTAと同様に外国企業への依存を避けられない状況が現実化しつつあることに、深い懸念を抱かざるを得ません。
私たちは数年にわたり、仮想空間やAIエージェントといった技術の重要性を訴えてきておりますが、これらを半導体と同等の重要性を持つ安全保障案件として、日本のデジタル政策において高い優先度で取り扱われることを強く望みます。
以下、NVIDIA創設者兼CEOジェンセン・フアンのプレゼンテーション
3:12
NVIDIA創設者兼CEOジェンセン・フアンの登場です。
3:20
(音楽と拍手)
3:27
「CESへようこそ。ラスベガスにいることにワクワクしていますか?私のジャケット、気に入りましたか?」
3:34
「ラスベガスですから、ギャリー・シャピロとは違う方向に行ってみました。これがダメなら…まあ、慣れてください。あと1時間もすれば気に入ると思います。」
4:01
「NVIDIAへようこそ。実際、皆さんはNVIDIAのデジタルツインの中にいます。」
4:08
「NVIDIAへようこそ。皆さんは私たちのデジタルツインの中にいるのです。」
4:20
「ここにあるすべてはAIによって生成されています。」
9:33 - 9:47
GPUとGeForceは、AIの進化を支える重要な基盤を築いてきました。GeForceはAIを一般の人々に広める役割を果たし、今ではAIがGeForceを革新しています。AIなしでは成し遂げられない多くのことがあります。これを少しご紹介します。
11:34 - 11:56
先ほど見ていただいたのはリアルタイムのコンピュータグラフィックスでした。光のシミュレーションであるレイトレーシングを用いて、すべてのピクセルを描写するのは、AIなしでは不可能です。ジオメトリの量も膨大で、従来の手法では到底実現できないものでした。
12:18 - 12:46
AIは、計算したピクセルを条件として、それ以外のピクセルを予測して生成します。このプロセスは「DLSS(ディープラーニングスーパーサンプリング)」と呼ばれ、最新のDLSSではさらに「Beyond Frames」の生成も可能です。つまり、1つの計算フレームごとに3つの追加フレームを予測します。
13:04 - 13:29
これにより、フルHDや4Kで約3300万ピクセルのうち、実際に計算するのは200万ピクセルのみで済みます。このような効率化により、高パフォーマンスで美しい映像を実現しています。AIを活用することで、これが可能になったのです。
14:15
本日、新世代「RTX Blackwellファミリー」を発表します。
15:24 - 15:30
これが新しいGeForce RTX 50シリーズ、Blackwellアーキテクチャです。
15:30 - 16:03
このGPUは驚異的な性能を持っています。
920億トランジスタ
4000TOPS(テラ演算/秒)のAI処理能力
前世代Adaアーキテクチャの3倍の性能
380テラフロップスのレイトレーシング処理能力
125テラフロップスのシェーダー性能
Micron製G7メモリ:1.8TB/sの帯域幅(前世代の2倍)
16:24 - 16:53
この新しいアーキテクチャにより、AIワークロードとコンピュータグラフィックスワークロードの混合処理が可能になりました。また、ニューラルネットワーク処理をプログラマブルシェーダーが担えるようになり、ニューラルテクスチャ圧縮やニューラルマテリアルシェーディングなどが実現されています。
17:15 - 17:42
さらに、GPUのデザインも革命的です。グラフィックスカード全体が巨大なファンのように設計されており、効率的な冷却性能を提供します。
17:48 - 18:53
価格にも驚きがあります。RTX 5070は、RTX 4090に匹敵する性能を持ちながら、価格は$549という低コストで提供されます。これにより、多くのユーザーが手軽にアップグレードできるようになります。
19:01 - 19:14
人工知能(AI)なしでは不可能なことです。4TOPS(4テラオペレーション/秒)のAIテンソルコア、G7メモリもAIの進化を支えています。これにより、RTX 5070はRTX 4090に匹敵する性能を$549で提供できるのです。
19:14 - 19:30
さらに、この新しいファミリー全体をご紹介します。5070から始まり、最上位の5090は4090の2倍の性能を誇ります。この製品群は1月から大量生産を開始し、市場での提供を開始します。
19:39 - 19:55
信じられないことに、この高性能GPUをラップトップにも搭載しました。この5070搭載ラップトップは価格が$1299で、4090に匹敵する性能を提供します。
20:07 - 20:26
これが驚異的なグラフィックスカード「Blackwell」です。そして、このような高性能カードをラップトップに収めるのは一見無理そうに思えますが、AIが可能にしているのです。AIはテンソルコアを活用し、必要なピクセルのみをレイトレースし、それ以外のピクセルをAIで生成するため、省エネルギー性が非常に高いのです。
20:32 - 20:46
このプロセスにより、エネルギー効率は驚くほど向上しています。コンピュータグラフィックスの未来は、AIとコンピュータグラフィックスの融合「ニューラルレンダリング」にあります。
21:04 - 21:19
さらに驚くべきは、この新しいGPUファミリーが非常に薄いラップトップにも搭載できることです。例えば、厚さ14.9mmのラップトップに、5090、5080、5070 Ti、または5070を搭載することが可能です。
21:26
このようにして、新しい「RTX Blackwellファミリー」が誕生しました! [拍手]
21:37 - 21:45
GeForceはAIを世界に広める役割を果たしました。そして今、AIがGeForceを再び革新しています。
21:51 - 22:08
さて、次に進みましょう。私たちが紹介するのは、NVIDIAの別の場所です。実は、ここは私たちのオフィス、つまりNVIDIA本社そのものです。では、人工知能(AI)について詳しく話していきましょう。
スケーリング法則の概要
22:08 - 22:44
業界全体が現在、AIのスケールアップに向けて懸命に追求し、競争しています。「スケーリング法則」は、何世代にもわたって研究者や業界によって観察され、実証されてきた強力なモデルです。
より多くのデータ(トレーニングデータ)があるほど、モデルが大きくなり、
より多くの計算リソースを適用することで、その結果、モデルがより効果的で有能になります。このスケーリング法則は今も進化を続けています。
22:44 - 23:18
驚くべきことに、現在インターネットが生成するデータ量は毎年倍増しています。このままのペースが続けば、今後数年で人類がこれまでに生成したデータ総量を超える量のデータが作られるでしょう。しかも、それらのデータはビデオ、画像、音声といったマルチモーダルな形式が増えています。この膨大なデータは、AIの基礎的な知識(ファウンデーショナルナレッジ)をトレーニングするために活用されることができます。
新たなスケーリング法則
23:18 - 23:39
AIに関する新たな進化として、これまでのスケーリング法則に加えて、さらに2つの重要なスケーリング法則が出現しました。それは次の通りです:
ポストトレーニング スケーリング法則(Post-Training Scaling Law)
テスト時スケーリング法則(Test-Time Scaling Law)
23:39 - 24:17
ポストトレーニング スケーリング法則では、AIがトレーニング後にさらなる改善を遂げるために、以下のような技術を使用します:
強化学習(Reinforcement Learning)
人間からのフィードバック(Human Feedback)
このプロセスはこう進行します:
AIは人間のクエリ(質問や指示)に基づいて答えを生成します。
人間がその答えにフィードバックを与えます。
このフィードバックに基づいてAIがスキルを調整し、特定分野の能力を向上させます。
具体例として、AIが数学問題を解く能力を高めたり、より高度な推論能力を獲得することが挙げられます。これは、学校を卒業した後にコーチや指導者からのアドバイスを受けて成長する人間のようなプロセスに似ています。
24:17 - 24:36
さらに、AIは「自己練習」のような形でも進化できます。たとえば、問題の正解を既に知っている場合、その正解に到達するまで何度も試行錯誤することが可能です。これにより、AIは徐々に能力を向上させます。
テスト時スケーリング法則
24:36 - 25:57
テスト時スケーリング法則は、AIが実際に利用される場面で適用されます。この段階では、AIが答えを生成するために必要な計算リソースをどのように最適化するかに焦点を当てます。具体的には次のような概念が含まれます:
推論(Reasoning)
長期的な思考(Long Thinking)
これは、一回限りの「推論」や「即時の解答」とは異なります。AIは問題を以下のように解決します:
問題を複数のステップに分解。
複数のアイデアを生成。
それらのアイデアを評価し、最良の解答を選択する。
これにより、AIは段階的に解決策を導き出し、複雑な課題に対応できるようになります。
これらの法則の進化
これらの3つのスケーリング法則(プリトレーニング、ポストトレーニング、テスト時スケーリング)は、ChatGPTやGemini ProのようなAIシステムの進化の裏にあります。これらの法則を適用することで、AIモデルは段階的に進化し、より高度な知能を実現しています。
25:57 - 26:22
これらの技術革新により、AIは今後もより優れた解決策を提供できるようになるでしょう。AIは社会全体にとって最も価値ある資産の1つであり、さまざまな課題を解決するために活用され続けることが期待されています。
26:05 - 26:11
AIシステムは、生成されたアイデアの中でどれが最良かを評価し、場合によっては問題をステップごとに解決していきます。このようにして、AIが一歩ずつ問題に取り組むことが可能になります。
26:16 - 26:28
現在、テスト時スケーリングは非常に効果的であることが証明されています。この技術の進化の過程を見てきた皆さんは、ChatGPTから01、03、そしてGemini Proといった驚異的な成果に出会っているはずです。これらのシステムは、プリトレーニングからポストトレーニング、さらにはテスト時スケーリングというステップを順を追って進化してきています。
26:36 - 27:01
こうした進化に伴い、必要となる計算能力も当然ながら膨大なものになっています。我々は、社会がこの計算能力をスケールアップし、より新しい、より優れた知能を生み出せるようにすることを望んでいます。知能は私たちが持つ中で最も価値のある資産であり、非常に多くの困難な課題を解決するために応用することができます。
27:06 - 27:14
スケーリング法則は、NVIDIAの計算能力への膨大な需要を生み出しています。そして、この需要を満たすために開発されたのが、我々の素晴らしいチップ「Blackwell」です。それでは、Blackwellについて見てみましょう。
Blackwellについて
27:21 - 27:42
Blackwellはすでに完全に生産体制に入っています。このチップは驚くべきものであり、現在、すべての主要なクラウドサービスプロバイダーがBlackwellを搭載したシステムを運用しています。我々には、約15社のコンピュータメーカーがあり、200種類以上の異なる構成のシステムが製造されています。
これらのシステムは、液体冷却、空冷、x86、NVIDIAのGray CPUバージョン、MVLink 36×2、MVLink 72×1など、さまざまなバリエーションを備えています。このようにして、世界中のほぼすべてのデータセンターに対応可能な製品を提供しています。
27:48 - 28:13
これらのシステムは現在、45の工場で製造されています。この事実からも、人工知能がいかに広がり、業界全体が新しいコンピューティングモデルにどれほど迅速に適応しているかがわかります。
28:19 - 28:50
我々がこれほどまでに努力している理由は、さらなる計算能力が必要だからです。それがどれほど明確であるかを示すために...
(ここでデモが始まります。)
28:56:00
29:08 - 29:44
「これは、GB200 MVLink 72で、重量は約1.12トン、パーツ数は60万点にも及びます。これは自動車20台分に相当し、消費電力は120キロワットに達します。」GPUを接続するスパイン(背骨)が存在し、2マイル(約3.2km)にわたる銅ケーブルで繋がっています。
30:04 - 30:30
「このシステムは世界45カ所の工場で製造されています。液冷と空冷のテストを行い、パーツごとに分解してデータセンターに出荷し、再度組み立てます。」これほど大規模な製造プロセスが必要なのは、計算能力をスケールさせるための需要が非常に大きいからだと説明。「このBlackwellは、前世代に比べて1ワットあたりの性能を4倍、コスト効率を3倍向上させました。」
30:30 - 31:14
「1世代でトレーニングコストを3分の1に削減、または同じコストでモデルのサイズを3倍に拡大可能です。」これらのシステムは、ChatGPTやGeminiのようなAIが生成するトークンを生み出しており、これらのトークンは今後のほぼすべてのAIアプリケーションに消費されるだろうと述べています。また、Blackwellの電力効率の向上により、データセンターで生成可能な収益が4倍に増加すると説明しています。
31:14 - 32:02
「このシステムは、1つの巨大なチップのように設計されています。」Blackwellシステムが「1.4エクサフロップス」の計算性能を持ち、14テラバイトのメモリ、メモリ帯域幅1.2ペタバイト/秒を備えています。この帯域幅は現在世界で発生しているインターネットトラフィック全体に相当します。さらに、130兆個のトランジスタと2,592のCPUコアを搭載しています。
32:02 - 34:01
NVIDIAの最新のBlackwellシステムを構成する重要な要素について解説しています。Blackwellのダイ(チップ)は世界最大のものですが、特筆すべき点として、このシステムはGrace CPUと統合されていることを挙げています。これにより、データセンター内の計算効率とスケーラビリティが大幅に向上していると説明。
34:01 - 35:02
「このシステムを開発した目的は、より大規模なモデルをトレーニングし、AI推論(推測)のコストを大幅に下げることです。」未来のAIは、単にユーザーとやりとりするだけでなく、自ら考え、内部で反省し、プロセスを改善するようになると述べています。その結果、トークン生成速度を大幅に向上させる必要があること、さらにそれを低コストで実現することが求められると説明。
35:02 - 36:01
AIのトークン生成において高い品質と低コストを両立させる必要性を強調。「これがMVLinkの開発目的のひとつであり、これによってAIシステムはさらなる進化を遂げることが可能になります。」と述べ、セグメントを締めくくっています。
Agentic AI(エージェンティックAI)
36:08 - 36:45
「Agentic AI(エージェンティックAI)」はテスト時スケーリングの完璧な例です。これは複数のモデルから成るAIシステムであり、一部は顧客やユーザーと対話し、また一部は情報を取得するためにストレージやインターネットへアクセスするセマンティックAIシステム(例:RAG(Retrieval-Augmented Generation))を利用します。
また、PDFファイルを読み取り、ツールや計算機を使用してデータを処理したり、生成AIを使ってチャートを作成したりすることもあります。このように、問題をステップごとに分解し、さまざまなモデルを組み合わせて繰り返し処理を行うのです。
36:45 - 37:09
「将来的にはAIが顧客に応答する際、単純な質問に答えるだけではなく、多数のモデルが裏で動作することになります。そのため、推論のための計算負荷は急激に増加します。」これにより、AIの応答はより正確で優れたものになると説明しています。
37:09 - 37:27
「エージェンティックAIの構築をサポートするため、NVIDIAは直接エンタープライズ顧客に販売するのではなく、ITエコシステムのソフトウェア開発者と協力しています。」このアプローチにより、新しい機能を実現する技術を統合し、AIライブラリの提供を通じてAIの利用を拡大します。
37:27 - 37:52
「従来の計算モデルがコンピュータグラフィックスや線形代数、流体力学などのAPIを備えていたように、将来的にはこれらのライブラリの上にAIライブラリが構築されます。」NVIDIAはエージェンティックAIのエコシステム構築を支援するために、以下の3つを開発しました:
NVIDIA NIMS(AIマイクロサービス)
NVIDIA Nemo
その他のツール
37:52 - 38:28
「NIMSは複雑なCUDAソフトウェアやモデルをパッケージ化して最適化し、コンテナ化します。」
これにより、ビジョン、言語理解、音声認識、アニメーション、デジタルバイオロジー、物理AIといった多様な分野で利用可能なAIモデルが提供されます。
NVIDIAのGPUがクラウドやOEMに広く普及しているため、これらのモデルをどこでも統合でき、カスタマーエージェントや業務エージェントとして利用できます。
38:28 - 39:06
「Nemoは、デジタル従業員のオンボーディング、トレーニング、評価システムです。」
AIエージェントは企業のデジタル労働力として従業員と共に働きます。
これらのAIエージェントを導入する際、従業員を採用するように訓練や評価を行います。
39:06 - 39:50
Nemoを使用することで、企業固有の用語や業務プロセス、作業スタイルに適応したAIエージェントをトレーニングできます。
作業成果の例を提示し、フィードバックを与えることで、AIエージェントが改善されます。
また、ガードレール(制約)を設定し、「してはいけないこと」「言ってはいけないこと」を明確に伝えることができます。
40:03 - 40:31
「アクセス制限が必要な特定の情報にも対応できます。この一連のデジタル従業員管理プロセス全体が『Nemo』と呼ばれるものです。」
将来的に、あらゆる企業のIT部門がAIエージェントの人事部門のような役割を果たすようになるでしょう。現在、IT部門は主にIT業界のソフトウェアを管理・維持していますが、将来的には、デジタルエージェントを維持・育成し、オンボーディングを行い、それらを改善して企業内で活用できるようにすることになります。
40:31 - 40:55
「IT部門はまるでAIエージェントの人事部門のようになるのです。そして、その上で私たちはエコシステムが利用できる多くの設計図を提供しています。これらは完全にオープンソースで、自由に使用・改変が可能です。」
これにより、さまざまなタイプのエージェントに適用できる設計図が提供されます。
40:55 - 41:23
「本日、新たな発表をします。それは非常にクールで賢明な取り組みです。」
NVIDIAは、「Llama(Metaによる言語モデル)」を基にした一連のモデルを発表します。これらは「NVIDIA Llama Neotron」言語基盤モデルです。MetaのLlama 3.1は注目すべき存在で、350~650,000回ダウンロードされています。このモデルは、約60,000種類の派生モデルへと変化し、ほぼすべての企業や業界がAI開発を始める契機となりました。
41:23 - 42:23
「私たちはLlamaモデルをエンタープライズ用途に適した形に微調整しました。それを『Llama Neotron』スイートとして提供します。」
小型モデル: 高速応答が可能。
スーパーLlama Neotronモデル: 主流のモデルに適している。
ウルトラモデル: 他のモデルの教師モデルや評価モデルとして機能します。回答の良し悪しを判断し、フィードバックを提供する役割も果たします。このモデルは知識蒸留にも使用可能です。
42:23 - 43:02
「これらのモデルは、チャット、指示処理、情報検索など、AIエージェントに必要なさまざまな機能においてリーダーボードのトップに立っています。」
これらのモデルは、世界中で使用されるAIエージェントにとって素晴らしい選択肢となるでしょう。
43:02 - 43:28
「私たちはエコシステムと連携しています。NVIDIAのすべてのAI技術はIT業界に統合されています。」
ServiceNow、SAP、Siemens: 産業用AIにおいて素晴らしい取り組みをしています。
Cadence、Synopsys: 優れたプロジェクトに取り組んでいます。
Perplexity: 検索を革命的に変えた会社です。
43:28 - 43:58
「Codiumも重要です。すべてのソフトウェアエンジニアにとって、次の大きなAIサービスはソフトウェアのコーディングになるでしょう。」
世界中には3000万人のソフトウェアエンジニアがおり、彼ら全員がコーディングを支援するソフトウェアアシスタントを利用することになるでしょう。これがなければ、明らかに生産性が低下し、質の低いコードが生まれる可能性があります。
「世界には10億人の知識労働者がいます。AIは非常に明確に、これらすべての分野において重要な役割を果たすでしょう。」
44:03 - 44:10
「AIエージェントは次世代のロボット産業となる可能性があり、おそらく数兆ドル規模のビジネスチャンスとなるでしょう。」
「次に、私たちがパートナーと共に開発したブループリントのいくつかや取り組みをお見せしましょう。」
AIエージェントは新たなデジタル労働力であり、私たちのため、そして私たちと共に働く存在です。AIエージェントは、任務を考察し、それをタスクに分解し、データを取得したりツールを使用したりして、高品質な応答を生成するモデルのシステムです。NVIDIAのエージェントAI構築ブロックである「Nim」(プリトレイン済みモデル)と「Nemoフレームワーク」は、企業が簡単にAIエージェントを開発し、どこにでも展開できるようにします。
44:40 - 44:58
「私たちは、社員を教育し、オンボーディングするように、エージェント的な労働力を企業の業務方法に合わせてオンボーディングし、トレーニングします。」
AIエージェントは、特定のドメインに特化したタスクのエキスパートです。
44:58 - 45:04
「次に、知識労働者や学生のための4つの具体例をお見せします。」
45:04 - 45:19
1. AIリサーチアシスタントエージェント
「これらは、講義やジャーナル、財務報告など複雑な文書を取り込み、簡単に学習できるインタラクティブなポッドキャストを生成します。」
2. 気象モデリングエージェント
「Unet回帰モデルとディフュージョンモデルを組み合わせた『Cordi』を使用して、世界の気象予測を25kmスケールから2kmスケールに縮小します。」
3. ソフトウェアセキュリティエージェント
「NVIDIAのような開発者は、ソフトウェアの脆弱性を継続的にスキャンし、開発者に必要な対応をアラートで通知するAIエージェントを管理しています。」
4. バーチャルラボエージェント
「研究者が数十億の化合物を設計・スクリーニングし、有望な薬剤候補をこれまで以上に早く発見するのを支援します。」
45:52 - 46:05
「NVIDIA Analytics AIエージェントは、『NVIDIA METRO』ブループリントに基づき構築され、NVIDIA Cosmos Nimron視覚・言語モデル、Llama Neotron LLM(大規模言語モデル)、Nemo Retrieverを含んでいます。」
「Metropolisエージェントは、世界中の数十億台のカメラから収集される1日あたり10万ペタバイト(1億TB)のビデオを分析します。これにより、インタラクティブな検索、要約、レポートの自動生成が可能になります。」
46:17 - 46:31
「これらは交通の流れを監視し、渋滞や危険を警告したり、産業施設内のプロセスを監視して改善案を生成したりします。」
46:31 - 46:43
「Metropolisエージェントは、数百台のカメラからのデータを集中管理し、インシデント発生時には作業員やロボットのルートを再設定できます。」
46:43 - 46:52
「エージェントAIの時代が、あらゆる組織で始まっています。」
「AIはクラウド内で、そしてクラウドのために進化を遂げています。また、スマートフォン上でAIを活用するのに最適であり、非常に近い将来、常時稼働するAIが私たちと共に存在するようになるでしょう。例えば、メタのグラスを使えば、何かを指し示したり、視線を合わせたりして、欲しい情報をすぐに得られるようになります。」
「AIはクラウドの中でも完璧に機能しますが、そのAIをどこへでも持ち運べるようにしたいと考えています。既に述べたように、NVIDIAのAIはどのクラウドにも展開可能ですが、それを企業内にも、さらに私たちのPCにも導入できるようにしたいのです。」
「Windows 95はコンピューター業界に革命をもたらし、新たなマルチメディアサービス群を可能にし、アプリケーションの開発方法を永久に変えました。しかし、Windows 95のこのコンピューティングモデルはAIにとっては完璧ではありません。そこで、将来的には、AIがあなたのAIアシスタントとなり、ただの3D APIや音声API、動画APIではなく、3D生成や言語生成、音声生成のためのAPIを持つシステムが必要になります。」
「そして、そのためにはクラウドの大規模な投資を活用する必要があります。AIモデルのプログラミングのための新しい方法を世界中で一から構築するのは現実的ではありません。そのため、Windows PCを世界最高のAI PC(AI PC)に変える方法を見つけられれば、それは完全に素晴らしいものになるでしょう。そしてその答えがWindowsです。」
48:41 - 49:03
「Windows WSL2(Windows Subsystem for Linux 2)こそがその答えです。WSL2は、1つのオペレーティングシステム内で2つのシステムを動かし、完璧に機能します。それは開発者向けに設計されており、ベアメタル(ハードウェアに近いレベル)へのアクセスを可能にします。また、WSL2はクラウドネイティブアプリケーションのために最適化されており、特に重要な点として、CUDAにも最適化されています。」
「WSL2はCUDAを初期設定のままで完全にサポートしているため、NVIDIAのNIMs、Nemo、または我々が開発したブループリントがすべて、AI専用のポータル(ai.nvidia.com)上で提供されます。PCがそのモデルを実行できる限り、様々なモデル、例えばビジョンモデルや言語モデル、音声モデル、人間のデジタルアニメーションモデルなど、多種多様なものを活用することが可能になります。」
「異なる種類のモデルがあなたのPCにぴったり合い、ダウンロードしてすぐに動作するようになるでしょう。我々の目標は、Windows WSL2を利用したWindows PCを、一流のターゲットプラットフォームに変えることです。そしてそれを、私たちが生きている限りサポートし続けます。これは、エンジニアや開発者にとって素晴らしいニュースです。」
「では、その可能性を示す例を見てみましょう。これは、我々が提供するブループリントの1つです。」
50:31 - 51:26
「生成AIは、簡単なテキストプロンプトから驚くべき画像を合成します。しかし、言葉だけで画像の構図をコントロールするのは難しいことがあります。NVIDIAのNIMs(マイクロサービス)を使用すると、クリエイターはシンプルな3Dオブジェクトを使って、AIによる画像生成を誘導できます。
次に、この技術を利用してシーンの外観を開発するコンセプトアーティストの例を見てみましょう。彼らは、手作業で作成したりAIで生成したりした3Dアセットを配置するところから始めます。そして、Fluxのような画像生成Nimを使用して、その3Dシーンに準拠したビジュアルを作成します。
さらに、オブジェクトを追加したり移動したりして構図を洗練させたり、カメラアングルを変更して完璧なショットをフレームに収めたり、新しいプロンプトを使って全体のシーンを再構築したりできます。」
「生成AIとNVIDIAのNIMsを活用することで、アーティストは素早くビジョンを実現できます。NVIDIA AIは、あなたのPCにも対応します。」
「世界には何億台ものWindows PCが存在しており、これらをAI対応にすることが可能です。我々が提携するPC OEM(製造業者)は、世界中の主要なPC OEMであり、これらのOEMはすべて、このAIスタックを活用する準備を進めています。AI PCは、あなたの家にもやってきます。」
「Linuxも素晴らしいですね。さて、次に『物理AI』について話しましょう。」
52:14 - 53:19
Physical AI (物理AI)
「物理AIを想像してください。例えば、大規模な言語モデルでは、左側にコンテキストやプロンプトを与え、1トークンずつ出力を生成します。これが基本的な仕組みです。驚くべき点は、この中央のモデルが非常に大きく、数十億のパラメータを持ち、PDFのような膨大なコンテキストを処理できることです。
例えば、私は質問する前にいくつかのPDFを読み込むかもしれません。これらのPDFはトークンに変換され、トランスフォーマーモデルのアテンションメカニズムによって、すべてのトークンが互いの関係性と関連性を評価します。
トークンが数十万個ある場合、計算負荷は二次的に増加します。これが1トークンを生成するたびに発生し、次のトークンを生成する際も同様です。これがトランスフォーマーモデルの仕組みであり、非常に効果的である一方で、計算的に非常に高い要求を持つ理由です。これが『Blackwell』が必要な理由です。」
53:19 - 54:09
「では、PDFの代わりに『周囲の環境』がコンテキストであり、プロンプトとして質問ではなく『リクエスト』が与えられた場合を想像してください。例えば、『あの箱を拾って持ってきて』というリクエストです。そして、生成されるものがテキストではなく、『アクショントークン』であるとしたらどうでしょうか。これが未来のロボティクスにとって非常に理にかなった方向性です。この技術はまさに目前に迫っています。」
54:09 - 54:59
「しかし、実現には『世界モデル』が必要です。言語モデル(GPTなど)ではなく、物理的世界の言語を理解するモデルです。このモデルは、物理的なダイナミクス、例えば重力、摩擦、慣性といった概念を理解する必要があります。
また、幾何学的・空間的な関係性や原因と結果を理解し、例えば『物を落とせば地面に落ちる』、『何かを押せば倒れる』といった直感的な理解を持つ必要があります。さらに、物体の恒常性(オブジェクト・パーマネンス)も必要です。
例えば、『ボールがカウンターの向こう側に転がったとしても、ボールが別次元に消えたわけではない』といった具合です。これらすべてが、現在の多くのモデルでは非常に難しい課題です。」
54:59 - 55:14
「そこで、我々は今日、非常に重要な発表を行います。それは『NVIDIA Cosmos』です。物理世界を理解するための『世界基盤モデル(World Foundation Model)』の開発プラットフォームです。」
「NVIDIA Cosmosは、物理AIを進化させるための世界基盤モデルの開発プラットフォームです。このプラットフォームには、以下の技術が含まれます:
自己回帰(Auto-regressive)ベースの世界基盤モデル
拡散(Diffusion)ベースの世界基盤モデル
高度なトークナイザー
NVIDIA Cudaを利用したAI加速データパイプライン
Cosmosモデルは、テキスト、画像、ビデオのプロンプトを取り込み、仮想的な世界状態を動画として生成します。これにより、自動運転やロボティクスといったユースケースのユニークな要件を優先します。」
56:01 - 56:40
「開発者は、NVIDIA Omniverseを使用して物理的かつ地理的に正確なシナリオを構築し、それをCosmosに出力することで、物理的にリアルでフォトリアルな合成データを生成できます。生成されるデータには、次のような要素が含まれます:
多様な物体や環境
天候や時間帯といった条件
イレギュラーなケース(エッジケース)のシナリオ
これにより、強化学習やAIフィードバックを活用して、ポリシーモデルの改善やモデル性能のテスト・検証が可能になります。」
56:40 - 57:27
「Cosmosは、マルチセンサービューでも生成を行い、リアルタイムでトークンを生成します。この機能により、予測能力やマルチバースシミュレーションの力をAIモデルに提供し、AIが最適な選択肢を見つけられるようにします。」
「NVIDIAは、世界中の開発者エコシステムと協力し、次の波である物理AIを進化させています。」「NVIDIA Cosmosは、世界初の『世界基盤モデル(World Foundation Model)』です。このモデルは2000万時間の動画を基にトレーニングされています。
これらの動画は物理的ダイナミクスに特化しており、自然の動き、テーマ、例えば人間の歩行や手の動き、物を操作する動作、高速なカメラの動きなど、物理世界の理解を重視しています。これにより、このAIはクリエイティブなコンテンツを生成することを目的とするのではなく、物理的世界を理解することを目的としています。」
「この物理AIを活用することで、以下のような多くの応用が可能になります:
合成データ生成:ロボットのモデルを訓練するためのデータを作成
モデルの蒸留(distillation):ロボットモデルの基礎として利用
物理的に妥当なシナリオの生成:未来を予測する、いわば『ドクター・ストレンジ』のような動作
動画キャプション生成:動画を分析して高精度なキャプションを生成
これらのキャプションや動画データは、大規模な言語モデル(LLM)のトレーニングにも利用可能です。つまり、この基盤モデルを使えば、ロボティクスやLLMを強化することができます。」
「NVIDIA Cosmosプラットフォームには、以下の要素が含まれています:
自己回帰モデル(Auto-regressive Model):リアルタイムアプリケーション向け
拡散モデル(Diffusion Model):高品質な画像生成向け
高度なトークナイザー:現実世界の語彙を学習
データパイプライン:大量のデータ処理を可能にするCUDAおよびAI加速のパイプライン
このプラットフォームにより、ユーザーは自身のデータでトレーニングを行うことができます。」
「今日、このCosmosプラットフォームがオープンライセンスで公開されることを発表します。GitHubで公開され、誰でも利用可能です。また、小型モデル、中型モデル、そして知識転移用の『教師モデル』といった種類があります。このオープンなCosmos基盤モデルが、ロボティクスや産業AIの分野において、Llama 3がエンタープライズAIで果たしたような革新をもたらすことを願っています。」
1:00:45 - 1:02:00
「CosmosをOmniverseと接続することで、真の力を発揮します。Omniverseは物理的に基づいたシミュレーターであり、Cosmosの生成を制御・条件付ける『基盤的真実(ground truth)』を提供します。これにより、Cosmosの生成物が現実の物理法則に基づいた信頼性のあるデータになります。
これは、LLM(大規模言語モデル)をRAG(Retrieval-Augmented Generation)に接続して、AI生成を現実のデータに基づかせるのと同じアイデアです。この2つを組み合わせることで、物理的にシミュレートされた『マルチバース生成』が可能になります。」
DGX(トレーニング用コンピューター):AIモデルを訓練するためのシステム
AGX(展開用コンピューター):AIモデルをデバイス(車、ロボットなど)で動作させるためのシステム
デジタルツイン:AIがトレーニング後に実践や強化学習を行う仮想環境
これらの3つのコンピューターが相互に作用することで、次世代のロボティクスシステムが構築されます。」
世界には数百万の工場や数十万の倉庫が存在し、これらは50兆ドル規模の製造業を支えています。これらの施設は、将来的にすべてがソフトウェア定義型(Software-defined)となり、ロボティクスによる自動化が導入されます。
NVIDIAは、倉庫の自動化において世界をリードするKeon社や、デジタル製造に重点を置くAccentureと提携しています。Keonは、倉庫ロジスティクスソリューションを提供する企業。Accentureは、世界最大のプロフェッショナルサービスプロバイダーで、デジタル製造分野にも注力している。
両社とNVIDIAは、1兆ドル規模の倉庫・配送センター市場を対象に、物理AIを活用して革新的なソリューションを提供します。
1:05:48 - 1:06:36
Keonのデジタルツイン戦略:NVIDIA Omniverseの活用
Keonの倉庫管理システムは、Omniverseを使ってロボットの脳(AIモデル)にタスクを割り当てます。倉庫のデジタルツインを作成し、以下のデータを統合:
CADデータ
動画や画像
3Dライダー(LiDAR)データ
点群データ(Point Cloud)
AI生成データ
ロボットは、Omniverse上の仮想環境を認識し、次の動作を計画し実行。センサーシミュレーションを通じて環境状態を把握し、次のアクションを決定します。
このプロセスを繰り返しながら、Megaという仕組みでデジタルツイン内のすべてを正確に追跡します。
デジタルツイン内でのすべての状態を基に、Keonは無限のシナリオをスケールに応じてシミュレートしながら、スループット、効率性、利用率などの運用KPIを測定できます。そして、物理的な倉庫に変更を導入する前にその効果を確認できます。
NVIDIA、Keon、Accentureが協力し、産業の自律性を再定義しています。この未来は本当に驚くべきものです。未来においては、すべてがシミュレーションの中にあります。そして、すべての工場がデジタルツインを持ち、そのデジタルツインは実際の工場とまったく同じように動作します。
実際には、OmniverseとCosmosを使用して多数の未来のシナリオを生成し、それをAIが評価して、最適なシナリオを選択します。このシナリオが設定するKPIに基づき、実際の工場に配備されるAIプログラムの制約条件、いわばプログラム自体になります。
次の例は自動運転車です。AV(Autonomous Vehicle)の革命がついに到来しました。
1:07:43
自動運転車 (Autonomous Vehicle)
自動運転車の成功、特にTeslaの成功により、自動運転車がついに現実のものとなったことは明らかです。私たちがこの業界に提供するのは3つのコンピュータです。AIのトレーニングシステム、シミュレーションシステム、そして合成データ生成システム(Omniverseや現在のCosmosを含む)です。また、車両内部に搭載されるコンピュータも含まれます。
自動車メーカー各社は、それぞれのニーズに応じてこれらのコンピュータの1つ、または複数を使用することが可能です。私たちは、世界中のほぼすべての主要な自動車メーカーと協力しています。たとえば、WM Motor、ZUK、Tesla、世界最大のEVメーカーであるBYD、そしてJLR(ジャガー・ランドローバー)は素晴らしい車を開発中です。メルセデスは、NVIDIA技術を搭載したフリート車両を今年から生産開始します。
そして、今日は、トヨタとNVIDIAが次世代の自動運転システム(AVS)の開発で提携することを正式に発表します。これ以外にも、Lucid、Rivian、Volvo、そしてWabiは自動運転トラックを構築しています。さらに、AuroraもNVIDIAを使用して自動運転トラックを開発することを、今週発表しました。
世界中で毎年1億台の車が製造され、10億台が道路を走行しています。そして、年間で1兆マイルが走行される中、今後はこれらがほとんど高度な自動運転、または完全自動運転になると考えています。この業界は非常に大きな産業になるでしょう。
私の予測では、これが世界初の「数兆ドル規模のロボティクス産業」になる可能性があります。すでに私たちのこのビジネスだけで40億ドル規模に達しており、今年のランレートでは50億ドルに達する見込みです。この業界の規模は非常に大きなものになるでしょう。
1:09:46
ロボット向けプロセッサ Thorの発表。
本日、次世代の車載プロセッサー「Thor」を発表します。これは車載用の次世代コンピューターです。
「Thor」はロボティクスコンピューターであり、膨大なセンサー情報を処理します。カメラや高解像度のレーダー、ライダー(LiDAR)から得られる情報を処理し、トークンに変換し、それをトランスフォーマーに通して次の経路を予測します。この自動運転用コンピューターは現在、完全生産体制に入っています。
「Thor」は、前世代の「Orin」と比較して20倍の処理能力を持っています。「Orin」は現在の自動運転車の標準ですが、「Thor」はその基準を大きく上回ります。
このロボティクスプロセッサーは、車両だけでなく、AMR(自律移動ロボット)やヒューマノイドロボットにも搭載可能で、ブレイン(脳)やマニピュレーター(操作装置)として機能する、汎用ロボティクスコンピューターです。
次に、私が非常に誇りに思うのは、車載システムにおける安全性への取り組みです。「Drive OS」は、AIがプログラム可能なコンピューターとして初めてASOLD(自動車機能安全の最高基準)に認定されました。これは、ISO 26262規格に準拠しており、15,000年にも及ぶエンジニアリングの成果です。
次に、OmniverseとCosmosを自動運転車の文脈でどのように使用するかをお見せします。
AIを活用してデジタルツインを自動生成し、その機能を活用して将来の自律移動モデルを訓練します。自動運転車を構築するには、ロボットと同様に3つのコンピューターが必要です。Nvidia DGXはAIモデルの訓練を、Omniverseはテスト走行と合成データの生成を、Drive AGXは車両内でのスーパコンピューターとしての役割を担います。
安全な自動運転車を構築するには、エッジケース(極端な状況)に対応する必要がありますが、実世界のデータは限られているため、合成データが重要になります。Nvidia Omniverse AIモデルとCosmosを活用した自動運転車データファクトリーは、トレーニングデータを何桁も拡張する合成走行シナリオを生成します。
まず、OmniMapが地図と地理空間データを融合し、走行可能な3D環境を構築します。次に、ニューラル再構築エンジンが、自動運転車のセンサー記録を使用して高精細な4Dシミュレーション環境を作成します。過去の走行を3Dで再現し、シナリオのバリエーションを生成してトレーニングデータを強化します。
最後に、Edify 3DSは既存のアセットライブラリを検索したり、新しいアセットを生成したりして、シミュレーション対応のシーンを作成します。OmniverseとCosmosのマルチバースシミュレーションエンジンは、膨大なデータセットを生成し、ロボットや車両のポリシーをトレーニングします。
これにより、実際の走行データと組み合わせて、数千回の走行を数十億マイルの効果的な走行データに拡張することが可能になります。NvidiaのAIデータファクトリーは、安全で高度な自動運転を実現するために、業界標準を設定しています。
これは自動運転産業にとって非常に興奮する時代です。今後数年で、自動運転車の開発がこれまで以上に急速に進展していくと確信しています。
1:16:08
ロボティクス
これからお話しするのはロボティクスについてです。
ロボティクス、人型ロボットの未来についてお話しします。
皆さん、ジェネラル・ロボティクス(汎用ロボティクス)におけるChatGPTのような瞬間が、すぐそこまで来ています。これまで紹介してきた技術が、この数年で急速な、驚くべきブレークスルーをもたらすでしょう。
ジェネラル・ロボティクスが重要である理由は、トラックや車輪のロボットが特殊な環境を必要とする一方で、人間社会に適応できる3つのロボットを構築できれば、特別な変更を必要とせずに展開できるからです。
これらのロボットは以下の3つです:
エージェントAIロボット - 情報作業を行うロボット。オフィスのコンピュータ環境に適応できます。
自動運転車 - 過去100年以上かけて構築した道路や都市をそのまま活用できます。
人型ロボット - 人間が構築した既存の社会に適応可能です。
これらの技術を実現できれば、世界最大のテクノロジー産業が誕生するでしょう。そして、ロボティクス時代がもう間もなく始まると考えています。
これらのロボットを訓練する上で重要なのは、データの収集方法です。自動車の場合は運転するだけで模倣データが得られますが、人型ロボットの場合、模倣データの収集は非常に手間がかかります。
この課題を解決するために、数百、数千の人間のデモンストレーションを元に、AIとOmniverseを活用して、数百万もの合成データを生成する必要があります。その方法をお見せしましょう。
1:19:05
世界中の開発者が、次世代の物理AIを備えた具現化ロボットを構築しています。
ジェネラル・ロボティクスモデルを開発するには、膨大な量の実世界データが必要ですが、その収集と整理には高いコストがかかります。NVIDIAのIsaac Grootはこれらの課題を解決します。
Isaac Grootは次の4つを提供します:
ロボットの基盤モデル
データパイプライン
シミュレーションフレームワーク
Thorロボティクスコンピュータ
Isaac Grootは、模倣学習のためのシミュレーションワークフローを通じて、少数のデモンストレーションから膨大なデータセットを生成します。
まず、「Groot Teleop」を使用して熟練した作業者がApple Vision Proを使い、ロボットのデジタルツイン内にポータルできます。これにより、物理的なロボットがなくてもデータを収集し、安全な環境で操作が可能です。
ロボットに単一のタスクを教える際には、少数の遠隔操作デモンストレーションを記録し、「Groot Mimic」を使ってデータを大幅に増幅します。
次に、「Gro Gen」を使用して、OmniverseとCosmos上でドメインランダマイゼーションや3Dから実世界へのアップスケーリングを実行し、さらに大規模なデータセットを生成します。
OmniverseとCosmosのマルチバースシミュレーションエンジンは、ロボットのポリシーを訓練するための大規模なデータセットを提供します。
訓練後、Isaac Simを使用してソフトウェアインザループのテストと検証を行い、実際のロボットに展開します。
ジェネラル・ロボティクスの時代が到来します。この進化はNVIDIAのIsaac Grootによって支えられています。
私たちはロボットを訓練するための膨大なデータを手に入れることができます。Isaac Grootはロボティクス業界の発展を加速させるプラットフォームです。
1:21:41
Project DIGITS
これらの成果は、約10年前に社内で開始した素晴らしいプロジェクト「Project DIGITS」なしでは実現しませんでした。このプロジェクトの正式名称は「Deep Learning GPU Intelligence Training System」です。
「DIGITS」は後に、RTXやAGX、OVX、そして他の多くのNVIDIA製品ラインと調和させるために「DGX」へと縮小されました。
初代「DGX-1」はAIに革命をもたらしました。このシステムを構築した理由は、研究者やスタートアップが即座に使用可能なAIスーパーコンピューターを持てるようにするためです。
従来のスーパーコンピューターは施設を建設し、インフラを整備し、ゼロから設計する必要がありました。そこで、研究者やスタートアップが箱から出してすぐに使えるAIスーパーコンピューターを作りました。
2016年に、最初の「DGX-1」をスタートアップ企業であるOpenAIに届けました。イーロン・マスクやイリヤ・サツケバー、NVIDIAのエンジニアたちがその場にいて、AIに革命をもたらす到着を祝いました。
現在、AIは研究所やスタートアップだけでなく、広く利用されています。AIは今やコンピューティングとソフトウェア開発の新しい方法となりました。ソフトウェアエンジニア、エンジニア、クリエイティブアーティスト、今日コンピューターを使うすべての人が、AIスーパーコンピューターを必要とする時代です。
そこで、小型化した「DGX-1」が必要でした。
これがNVIDIAの最新AIスーパーコンピューターです。
このプロジェクトは現在「Project DIGITS」と呼ばれていますが、良い名前があれば教えてください。
これはNVIDIAのAIスタックを完全に動作させるスーパーコンピューターです。DGXクラウドも動作し、ワイヤレスで接続するか、PCに接続して使用することもできます。
内部には「GB 110」という極秘チップが搭載されています。これはNVIDIAの最小の「Grace Blackwell」チップです。
このチップは現在量産中で、CPUはMediaTekとの協力で設計されました。この小型のコンピューターは2025年5月頃に利用可能となる予定です。
このAIスーパーコンピューターは、デスクトップに設置してクラウドプラットフォームとしても利用できますし、Linuxワークステーションとしても使えます。
接続には「ConnectX」を使用し、「NIC GPU Direct」に対応しています。すべてが箱から出してすぐに利用可能な状態で提供されます。
これがNVIDIAの「Project DIGITS」です。
1:27:28
Closing Remarks
さて、まとめに入りましょう。お話しした通り、私たちは新しいBlackwellシステムを3つ投入しました。Grace BlackwellスーパーコンピュータやMVLink 72sなどがすでに世界中で稼働しています。
さらに、世界初の物理AIファウンデーションモデルを用いて、ロボティクス産業を支える基盤が整備されました。ジェネラルAI、ヒューマノイドロボット、自動運転車の3つの分野で画期的な進展を見せています。
この素晴らしい年を共に迎えられたことに感謝します。そして、来年のさらなる挑戦を共に楽しみにしています。これからの一年を振り返る短いビデオを作成しましたので、ぜひご覧ください。
1:28:17
全文抽出は以上になりますが、この発表の陰に埋もれたProject R2Xもご紹介します。
NVIDIAが発表した「Project R2X」は、RTX GPUの性能を活用したデジタルヒューマンインターフェースであり、開発者やエンスージアストがAIエージェントを構築するための強力なツールです。
機能の説明:
音声認識と対話: ユーザーの音声コマンドを認識し、自然な対話を通じてPC操作や情報提供を行います。
アプリケーション支援: Photoshopなどのソフトウェアの使用方法をガイドし、生成AI機能の活用方法を提案します。
ドキュメント解析: ユーザーが提供する文書を分析し、必要な情報を抽出して質問に答えます。
タスク自動化: 設定変更やアプリケーションの起動など、ユーザーの指示に基づいてPC上のタスクを自動的に実行します。
視覚認識: カメラを通じて物体を認識し、ユーザーの質問に応じて詳細情報を提供します。
Kommentarer