Gemma 4 VLA Demo on Jetson Orin Nano Super カバー画像

NVIDIAエンジニアが Gemma 4 VLA Demo on Jetson Orin Nano Super を公開 ── 8GBエッジデバイスで動く自律判断AIアシスタント

HUGGING FACE

最終更新: 2026年04月23日 01:02 元記事 →

8GBのエッジデバイスで、LLMが自分で「カメラ使おうかな」って判断する世界が来てた。NVIDIAのエンジニアが、Jetson Orin Nano Super上でGemma 4を使ったVLAデモを公開していて、これが想定よりずっと面白い。

何が変わったのか

Parakeet STT → Gemma 4 → Kokoro TTS というパイプライン全体が、Jetson Orin Nano Super(8GB)上で完全ローカル動作する。ユーザーがSPACEキーで録音し、Gemma 4が質問内容を判断して「カメラ needed」なら自動で撮影。キーワードトリガーやハードコードされたロジックなしで、モデル自身が文脈から判断する。ハードウェア構成はLogitech C920ウェブカム+USBスピーカー+USBキーボード。スクリプト1本(Gemma4_vla.py)で完結し、初回起動時にHugging FaceからSTT/TTSモデルを取得する仕組み。

前モデル / 競合との比較

従来のVLMデモは「画像を見て説明する」ものが多かったけど、今回は「質問に答えるために必要なら自分からカメラを使う」という違いがある。記憶は間違ってるかもしれないが、この手の自律判断デモが8GBエッジで動くのは珍しい。

技術背景と意義

VLAは「Vision-Language-Action」の略で、LLMが状況に応じて自発的に行動を決める仕組み。従来の音声アシスタントは「カメラを使って」と明示的に指示しないと動かなかったけど、今回はモデルが「写真撮った方がいいかな」と自力で判断する。完全ローカルで動くからクラウド通信なし。エッジデバイスでここまでできる時代になったのは確か。

こんな人・用途に

ラズパイやJetson持ちの電子工作好きなら即試せる。工場現場などのオフライン環境で、カメラ付きの音声アシスタントを素早く構築したいケースにも良さそう。

入手方法・リンク

GitHub(github.com/asierarranz/Google_Gemma)のGemma4ディレクトリにあるGemma4_vla.pyをダウンロードするだけで利用可能。リポジトリ全体をcloneするか、wgetで単一ファイルを取得できる。

SOURCE: Hugging Face (2026-04-22)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です