Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents カバー画像

Hugging Face

Hugging Face が Granite 4.0 3B Vision をリリース ── 企業の文書解析に特化したコンパクトVLM登場

Byren_admin 2026年4月1日

HUGGING FACE

最終更新: 2026年04月01日 01:02　元記事 →

IBMのGraniteチームが、企業向けドキュメント理解に特化したコンパクトな視覚言語モデルを発表した。「Granite 4.0 3B Vision」は、複雑なテーブルやグラフの構造を正確に読み取るのが得意な3Bパラメータモデル。ChartNetという170万サンプルの専用データセットと、DeepStackアーキテクチャの新変種を組み合わせて構築されている。

▸何が変わったのか

Granite 4.0 3B Visionは、Granite 4.0 MicroをベースにLoRAアダプタとして構築されているのが特徴。視覚と言語のモジュールを分離しているため、テストのみのタスクにもフォールバック可能。注目すべきは3つの主要機能で、「Table Extraction」は複数行列のテーブル構造を正確に解析、「Chart Understanding」はグラフや図表を構造化フォーマットや要約、実行可能コードに変換、「Semantic Key-Value Pair (KVP) Extraction」は多様なレイアウトから意味のあるキーと値のペアを特定・抽出する。さらに、Doclingと組み合わせて使用することで、より深い視覚理解能力を備えた文書処理パイプラインを構築できる。

◈前モデル / 競合との比較

従来のVLMはグラフの空間的精度（例えば折れ線グラフの正確な値を読み取るなど）が苦手だったが、Granite 4.0 3B VisionはChartNetによる専用学習でこの弱点を克服している。また、LoRAアダプタとしてモジュール設計されているため、既存のGranite 4.0 Micro環境にシームレスに統合可能な点も実用性が高い。

◈技術背景と意義

グラフの理解は、視覚パターン・数値データ・自然言語を同時に処理する必要があるため、従来のVLMでは苦手な領域だった。Granite 4.0 3B Visionは、この課題を解決するために「ChartNet」という百万規模のマルチモーダルデータセットを独自に構築した。CVPR 2026で発表予定のこのデータセットは、コード主導の合成パイプラインを使って170万の多様なグラフサンプルを生成。24種類のグラフタイプと6つのプロットライブラリを網羅しているのがポイント。各サンプルには、プロットコード・レンダリング画像・データテーブル・自然言語要約・QAペアという5つの aligned component が含まれており、グラフが「どう見えるか」だけでなく「何を意味するか」まで深く学習できる仕組みだ。

▸こんな人・用途に

企業の契約書や請求書からキーと値のペアを自動抽出するタスクに最適。Doclingと組み合わせれば、大規模な文書処理パイプラインに視覚理解を統合できる。テーブル抽出やチャート読み取りなど、ビジネス文書に特有の構造化データ抽出ニーズにも対応する。

◆入手方法・リンク

情報なし（クローズドソースモデルのため、現時点では公開リポジトリの情報は確認できない）

公式発表を読む

SOURCE: Hugging Face (2026-03-31)

← LLM Watch トップへ

OpenAI

OpenAI が Building a safe, effective sandbox to enable Codex on Windows をリリース ── エージェントの安全性をガチで担保するアプローチ
Byren_admin 2026年5月14日

OpenAIがWindows向けCodex用の安全なサンドボックス構築法を公開。ファイルアクセスや通信を制限し安全なAI実行を実現。

続きを読む OpenAI が Building a safe, effective sandbox to enable Codex on Windows をリリース ── エージェントの安全性をガチで担保するアプローチ
Hugging Face

Hugging Face が OlmoEarth v1.1: A more efficient family of models をリリース ── 衛星画像解析の計算コストを大幅削減
Byren_admin 2026年5月20日

OlmoEarth v1.1は、トークン系列長の最適化により衛星画像解析の計算コストを最大3分の1に削減しつつ、高精度な性能を維持した効率的なモデル。

続きを読む Hugging Face が OlmoEarth v1.1: A more efficient family of models をリリース ── 衛星画像解析の計算コストを大幅削減
OpenAI

OpenAI が Symphony をリリース ── イシュートラッカーを常時稼働エージェントに変えるオーケストレーション仕様
Byren_admin 2026年4月28日

OpenAIがCodex orchestration向けオープンソース仕様「Symphony」を公開。イシュートラッカーを常時稼働エージェントシステムに変換する仕組み。

続きを読む OpenAI が Symphony をリリース ── イシュートラッカーを常時稼働エージェントに変えるオーケストレーション仕様
Hugging Face

NVIDIAがコード学習データ「Code Concepts」を公開 ── 概念ベースの合成で効率化
Byren_admin 2026年3月12日

NVIDIAが概念駆動型の合成データ生成手法を公開、1500万問でコードAIを強化

続きを読む NVIDIAがコード学習データ「Code Concepts」を公開 ── 概念ベースの合成で効率化
Google DeepMind

Google DeepMind が Gemini 3.1 Flash TTS をリリース ── 自然言語で感情を操る次世代音声モデル
Byren_admin 2026年4月16日

Google DeepMindがリリースしたGemini 3.1 Flash TTSは、自然言語の指示で感情やペースを自在に操れる次世代音声生成モデル。

続きを読む Google DeepMind が Gemini 3.1 Flash TTS をリリース ── 自然言語で感情を操る次世代音声モデル
Google DeepMind

Google DeepMind が Lyria 3 Pro: Create longer tracks in more をリリース ── ついに3分間の構造的楽曲生成が実現
Byren_admin 2026年3月26日

Google DeepMindがLyria 3 Proを発表。3分間の楽曲生成と構造理解が可能に。

続きを読む Google DeepMind が Lyria 3 Pro: Create longer tracks in more をリリース ── ついに3分間の構造的楽曲生成が実現

コメントを残すコメントをキャンセル