NVIDIA、ローカルエージェント型AI「Gemma 4」を各種GPU向けに最適化

生成AIの業務活用が進む中、クラウドインフラに依存する従来のAIシステムでは、通信遅延やセキュリティ上の懸念から、現場のリアルタイムな判断や機密性の高い社内データの取り扱いに課題が残されていた。

そのため、有意義な洞察を即座に行動へ移すためには、個人のファイルやアプリケーションといったローカル環境のデータ（コンテキスト）へ安全にアクセスし、エッジデバイス上で処理を完結させるローカルAIの需要が高まっている。

こうした課題を受け、NVIDIAは2026年4月10日、Googleが開発したローカル・エージェント型AI向けの小型モデル「Gemma 4」ファミリーを、自社の幅広いGPU製品群向けに最適化し、展開のサポートを開始したと発表した。

Gemma 4は、複雑なリーズニング（推論）やコーディング支援に加え、構造化されたツールの使用（関数呼び出し）といったエージェント機能をネイティブに備えた万能型のオープンモデルだ。さらに、テキストだけでなく視覚や音声などを組み合わせたマルチモーダルな入力にも対応している。

NVIDIAは今回、このGemma 4ファミリー（E2B、E4B、26B、31B）を、自社のエッジAIモジュール「Jetson Orin Nano」から「RTX」搭載のPCやワークステーション、パーソナルAIスーパーコンピュータ「DGX Spark」に至るまで、多岐にわたるシステム上で効率的に動作するよう最適化を行った。

中でも、軽量なE2BおよびE4Bモデルはエッジ環境に特化しており、完全なオフライン環境下においてもゼロに近い遅延での超高効率な推論を可能にする。

一方、より高度な26Bおよび31Bモデルはエージェント型AIの構築に最適化されており、ローカル環境のファイルやワークフローから直接情報を取得し、自律的にタスクを自動化する常時稼働型のAIアシスタントを実現する。

NVIDIAは、AI推論ワークロードを加速するTensorコアと、幅広い互換性を持つCUDAソフトウェアスタックの組み合わせにより、企業が大規模な追加最適化を行うことなく、Gemma 4を即座に自社システムへ拡張できる環境を整備している。

また、「Ollama」や「llama.cpp」といったローカル展開ツールや、効率的なファインチューニングを支援する「Unsloth」、さらにはオープンソースのデスクトップAIエージェント「OpenClaw」などとの連携も強化している。

同社はこれらの取り組みを通じて、開発者が各社の業務要件に合わせた高性能なローカルエージェントを容易に構築できる環境を提供し、クラウドの枠を超えた日常のデバイスにおけるセキュアで高速なAI活用を牽引していく方針だ。