Hugging Face が Holotron-12B - High Throughput Computer Use Agent をリリース ── PC操作エージェントの推論効率が劇的に向上

HUGGING FACE

最終更新: 2026年03月17日 22:04　元記事 →

H Companyから待望の「Holotron-12B」が登場しました。NVIDIA「Nemotron-Nano-2 VL」をベースにしたこのモデル、PCを自律操作するエージェント専用に作られていて、その処理速度（スループット）の高さはかなりイケてそう。とにかく実運用でのスケールを意識した作り込みが見逃せない。

▸何が変わったのか

「NVIDIA Nemotron-Nano-2 VL」をベースに、H Company独自のデータで再構築されたHolotron-12Bがリリース。従来のTransformerのような純粋なアテンション機構ではなく、ハイブリッドなSSM（状態空間モデル）とアテンションのアーキテクチャを採用している。これにより、KVキャッシュのような膨大なメモリを使わず、定数の状態だけを保存するため、メモリフットプリントが劇的に削減される。WebVoyagerベンチマークでは、単一のH100 GPUとvLLM v0.14.1を用い、2倍以上の高い数値を達成している（原文の記述が途切れているため具体的な項目は不明）。

◈前モデル / 競合との比較

多くの既存マルチモーダルモデルが静止画認識や指示に特化しているのに対し、Holotron-12Bは対話環境でのエージェント動作に特化して設計されている。

◈技術背景と意義

通常のAIモデルは長い文脈や複数の画像を処理すると計算量が爆発しがち。しかし、このモデルで使われているSSMという仕組みは、過去の情報を要約して保持するため、メモリ効率が驚くほど良い。つまり、「画面を見て、考え、操作する」というエージェントの作業を、大量のリクエストが来てもサクサク捌けるように設計されているわけ。静止画の認識じゃなく、PCとの「対話」を高速で回すのが狙いだ。

▸こんな人・用途に

複数の高解像度画像や長い操作履歴が必要な、本格的なPC操作エージェント（Computer-Use Agent）の開発。大量のアクセスが予想される本番環境での自動化タスク処理。

▸Redditの反応

H社がNVIDIAと組んで開発した「Holotron-12B」が登場。スループットが従来比2倍というハイパフォーマンスに注目が集まる一方、コメント欄では「コーディングばかりじゃなくて創作用モデルも欲しい」といったニーズの多様化を感じさせる素朴な疑問も上がっている。

r/LocalLLaMA▲ 3

「コーディング用じゃなくて、クリエイティブな執筆に特化した15Bクラスの現代的LLMがいつか登場しないかなって思ってる。」

u/Long_comment_san

r/LocalLLaMA▲ 2

「リリース情報をサンクス！こういうオープンソースの新しいモデルは気になるから、共有してくれて助かるよ。」

u/No_Afternoon_4260

◆入手方法・リンク

現在、Hugging Faceからモデルが提供されている。

公式発表を読む

SOURCE: Hugging Face (2026-03-17)

← LLM Watch トップへ

Hugging Face が Holotron-12B – High Throughput Computer Use Agent をリリース ── PC操作エージェントの推論効率が劇的に向上

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

▸Redditの反応

◆入手方法・リンク

Hugging Face が Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries をリリース

OpenAI が Enterprises power agentic workflows in Cloudflare Agent Cloud with OpenAI をリリース ── Cloudflare上でGPT-5.4とCodexが利用可能に

OpenAI が GPT-5.4 mini と nano をリリース ── コードとマルチモーダル推論を高速化

Hugging Faceの「Safetensors」がPyTorch Foundationへ移管 ── モデル共有のデファクトが中立性を獲得

OpenAI が Improving instruction hierarchy in frontier LLMs をリリース ── モデルが「誰の命令を最優先すべきか」を正しく学習

Hugging Face が Mixture of Experts (MoEs) in Transformers をガイド ── 効率化の常識を変える

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

▸Redditの反応

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル