Hugging Face が Holotron-12B – High Throughput Computer Use Agent をリリース ── PC操作エージェントの推論効率が劇的に向上
H Companyから待望の「Holotron-12B」が登場しました。NVIDIA「Nemotron-Nano-2 VL」をベースにしたこのモデル、PCを自律操作するエージェント専用に作られていて、その処理速度(スループット)の高さはかなりイケてそう。とにかく実運用でのスケールを意識した作り込みが見逃せない。
▸何が変わったのか
「NVIDIA Nemotron-Nano-2 VL」をベースに、H Company独自のデータで再構築されたHolotron-12Bがリリース。従来のTransformerのような純粋なアテンション機構ではなく、ハイブリッドなSSM(状態空間モデル)とアテンションのアーキテクチャを採用している。これにより、KVキャッシュのような膨大なメモリを使わず、定数の状態だけを保存するため、メモリフットプリントが劇的に削減される。WebVoyagerベンチマークでは、単一のH100 GPUとvLLM v0.14.1を用い、2倍以上の高い数値を達成している(原文の記述が途切れているため具体的な項目は不明)。
◈前モデル / 競合との比較
多くの既存マルチモーダルモデルが静止画認識や指示に特化しているのに対し、Holotron-12Bは対話環境でのエージェント動作に特化して設計されている。
◈技術背景と意義
通常のAIモデルは長い文脈や複数の画像を処理すると計算量が爆発しがち。しかし、このモデルで使われているSSMという仕組みは、過去の情報を要約して保持するため、メモリ効率が驚くほど良い。つまり、「画面を見て、考え、操作する」というエージェントの作業を、大量のリクエストが来てもサクサク捌けるように設計されているわけ。静止画の認識じゃなく、PCとの「対話」を高速で回すのが狙いだ。
▸こんな人・用途に
複数の高解像度画像や長い操作履歴が必要な、本格的なPC操作エージェント(Computer-Use Agent)の開発。大量のアクセスが予想される本番環境での自動化タスク処理。
▸Redditの反応
H社がNVIDIAと組んで開発した「Holotron-12B」が登場。スループットが従来比2倍というハイパフォーマンスに注目が集まる一方、コメント欄では「コーディングばかりじゃなくて創作用モデルも欲しい」といったニーズの多様化を感じさせる素朴な疑問も上がっている。
「コーディング用じゃなくて、クリエイティブな執筆に特化した15Bクラスの現代的LLMがいつか登場しないかなって思ってる。」
「リリース情報をサンクス!こういうオープンソースの新しいモデルは気になるから、共有してくれて助かるよ。」
SOURCE: Hugging Face (2026-03-17)