Hugging Face が Granite 4.0 3B Vision をリリース ── 企業の文書解析に特化したコンパクトVLM登場
IBMのGraniteチームが、企業向けドキュメント理解に特化したコンパクトな視覚言語モデルを発表した。「Granite 4.0 3B Vision」は、複雑なテーブルやグラフの構造を正確に読み取るのが得意な3Bパラメータモデル。ChartNetという170万サンプルの専用データセットと、DeepStackアーキテクチャの新変種を組み合わせて構築されている。
▸何が変わったのか
Granite 4.0 3B Visionは、Granite 4.0 MicroをベースにLoRAアダプタとして構築されているのが特徴。視覚と言語のモジュールを分離しているため、テストのみのタスクにもフォールバック可能。注目すべきは3つの主要機能で、「Table Extraction」は複数行列のテーブル構造を正確に解析、「Chart Understanding」はグラフや図表を構造化フォーマットや要約、実行可能コードに変換、「Semantic Key-Value Pair (KVP) Extraction」は多様なレイアウトから意味のあるキーと値のペアを特定・抽出する。さらに、Doclingと組み合わせて使用することで、より深い視覚理解能力を備えた文書処理パイプラインを構築できる。
◈前モデル / 競合との比較
従来のVLMはグラフの空間的精度(例えば折れ線グラフの正確な値を読み取るなど)が苦手だったが、Granite 4.0 3B VisionはChartNetによる専用学習でこの弱点を克服している。また、LoRAアダプタとしてモジュール設計されているため、既存のGranite 4.0 Micro環境にシームレスに統合可能な点も実用性が高い。
◈技術背景と意義
グラフの理解は、視覚パターン・数値データ・自然言語を同時に処理する必要があるため、従来のVLMでは苦手な領域だった。Granite 4.0 3B Visionは、この課題を解決するために「ChartNet」という百万規模のマルチモーダルデータセットを独自に構築した。CVPR 2026で発表予定のこのデータセットは、コード主導の合成パイプラインを使って170万の多様なグラフサンプルを生成。24種類のグラフタイプと6つのプロットライブラリを網羅しているのがポイント。各サンプルには、プロットコード・レンダリング画像・データテーブル・自然言語要約・QAペアという5つの aligned component が含まれており、グラフが「どう見えるか」だけでなく「何を意味するか」まで深く学習できる仕組みだ。
▸こんな人・用途に
企業の契約書や請求書からキーと値のペアを自動抽出するタスクに最適。Doclingと組み合わせれば、大規模な文書処理パイプラインに視覚理解を統合できる。テーブル抽出やチャート読み取りなど、ビジネス文書に特有の構造化データ抽出ニーズにも対応する。
SOURCE: Hugging Face (2026-03-31)


