Gemma 4 VLA Demo on Jetson Orin Nano Super カバー画像

NVIDIAエンジニアが Gemma 4 VLA Demo on Jetson Orin Nano Super を公開 ── 8GBエッジデバイスで動く自律判断AIアシスタント

Byren_admin 2026年4月23日

HUGGING FACE

最終更新: 2026年04月23日 01:02　元記事 →

8GBのエッジデバイスで、LLMが自分で「カメラ使おうかな」って判断する世界が来てた。NVIDIAのエンジニアが、Jetson Orin Nano Super上でGemma 4を使ったVLAデモを公開していて、これが想定よりずっと面白い。

▸何が変わったのか

Parakeet STT → Gemma 4 → Kokoro TTS というパイプライン全体が、Jetson Orin Nano Super（8GB）上で完全ローカル動作する。ユーザーがSPACEキーで録音し、Gemma 4が質問内容を判断して「カメラ needed」なら自動で撮影。キーワードトリガーやハードコードされたロジックなしで、モデル自身が文脈から判断する。ハードウェア構成はLogitech C920ウェブカム＋USBスピーカー＋USBキーボード。スクリプト1本（Gemma4_vla.py）で完結し、初回起動時にHugging FaceからSTT/TTSモデルを取得する仕組み。

◈前モデル / 競合との比較

従来のVLMデモは「画像を見て説明する」ものが多かったけど、今回は「質問に答えるために必要なら自分からカメラを使う」という違いがある。記憶は間違ってるかもしれないが、この手の自律判断デモが8GBエッジで動くのは珍しい。

◈技術背景と意義

VLAは「Vision-Language-Action」の略で、LLMが状況に応じて自発的に行動を決める仕組み。従来の音声アシスタントは「カメラを使って」と明示的に指示しないと動かなかったけど、今回はモデルが「写真撮った方がいいかな」と自力で判断する。完全ローカルで動くからクラウド通信なし。エッジデバイスでここまでできる時代になったのは確か。

▸こんな人・用途に

ラズパイやJetson持ちの電子工作好きなら即試せる。工場現場などのオフライン環境で、カメラ付きの音声アシスタントを素早く構築したいケースにも良さそう。

◆入手方法・リンク

GitHub（github.com/asierarranz/Google_Gemma）のGemma4ディレクトリにあるGemma4_vla.pyをダウンロードするだけで利用可能。リポジトリ全体をcloneするか、wgetで単一ファイルを取得できる。

公式発表を読む

SOURCE: Hugging Face (2026-04-22)

← LLM Watch トップへ

OpenAI

OpenAI が SWE-bench Verified 評価の停止を表明 ── ベンチマーク汚染が招いたスコア崩壊
Byren_admin 2026年2月27日2026年3月10日

OpenAI、SWE-bench Verified評価の停止を表明。汚染とテスト不備によりスコアの信頼性が低下したため、SWE-bench Proへの移行を推奨。

続きを読む OpenAI が SWE-bench Verified 評価の停止を表明 ── ベンチマーク汚染が招いたスコア崩壊
OpenAI

OpenAI が Symphony をリリース ── イシュートラッカーを常時稼働エージェントに変えるオーケストレーション仕様
Byren_admin 2026年4月28日

OpenAIがCodex orchestration向けオープンソース仕様「Symphony」を公開。イシュートラッカーを常時稼働エージェントシステムに変換する仕組み。

続きを読む OpenAI が Symphony をリリース ── イシュートラッカーを常時稼働エージェントに変えるオーケストレーション仕様
Hugging Face

Hugging Face が AI and the Future of Cybersecurity: Why Openness Matters を公開 ── サイバー攻撃の防衛にオープン性こそが最強のカード
Byren_admin 2026年4月24日

Hugging Faceが「Mythos」を例に挙げ、自律型AIがもたらすサイバーセキュリティの未来と、オープン性が防衛における構造的利点になる理由を熱く解説。

続きを読む Hugging Face が AI and the Future of Cybersecurity: Why Openness Matters を公開 ── サイバー攻撃の防衛にオープン性こそが最強のカード
Hugging Face

Hugging Face が Granite 4.0 3B Vision をリリース ── 企業の文書解析に特化したコンパクトVLM登場
Byren_admin 2026年4月1日

IBM Granite 4.0 3B Visionは企業向け文書理解に特化したVLM。ChartNetとDeepStack変種で3Bパラメータを実現。

続きを読む Hugging Face が Granite 4.0 3B Vision をリリース ── 企業の文書解析に特化したコンパクトVLM登場
OpenAI

OpenAI が Codex の公式チュートリアルを公開 ── AIコーディングの始め方が遂に判明
Byren_admin 2026年4月27日

OpenAIがCodexの公式スタートアップガイドを公開。プロジェクトのセットアップからタスク完了までをステップバイステップで解説し、AIコーディングの導入を強力にサポートする。

続きを読む OpenAI が Codex の公式チュートリアルを公開 ── AIコーディングの始め方が遂に判明
OpenAI

OpenAI が Creating with Sora Safely をリリース
Byren_admin 2026年3月24日

OpenAIのCreating with Sora Safelyリリース情報

続きを読む OpenAI が Creating with Sora Safely をリリース

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル