Hugging Face が Granite 4.0 1B Speech: Compact, Multilingual, and Built for the Edge をリリース ── パラメータ半減で日本語対応も実現した小型音声モデル
IBMのGraniteシリーズに新たなモデル「Granite 4.0 1B Speech」が登場しました。前モデルからパラメータ数を半分に削減したにもかかわらず、英語の認識精度が向上しているというから驚きです。日本語対応も追加され、リソースが限られたエッジデバイスでの利用を想定したかなり実用的なモデルに仕上がっています。
▸何が変わったのか
新モデル「Granite 4.0 1B Speech」は、前バージョンの「granite-speech-3.3-2b」と比べてパラメータ数が半分となり、よりコンパクトになっています。それでいて英語の書き起こし精度は向上し、「speculative decoding」による推論の高速化も実現。サポート言語は英語、フランス語、ドイツ語、スペイン語、ポルトガル語に加え、新たに「日本語」もサポートされました。さらに「keyword list biasing」機能により、名前や頭字語などの認識精度が底上げされています。
◈前モデル / 競合との比較
前世代の「granite-speech-3.3-2b」と比較して、パラメータ数は半減しつつ精度と速度は向上しています。「OpenASR leaderboard」では1位を獲得するなど、同規模あるいはそれ以上のパラメータ数を持つモデルと比べても遜色ない性能を発揮しています。
◈技術背景と意義
このモデルは音声認識(ASR)と双方向音声翻訳(AST)に特化しており、少ないパラメータ数ながら大型モデルに匹敵する性能を目指しています。Word Error Rate (WER)という指標(数値が低いほど精度が高い)では非常に好成績を残しており、リソースが限られたデバイスでも高精度な処理が可能です。Apache 2.0ライセンスで提供されているため、商用利用を含めて自由にカスタマイズして使えるのも大きな魅力でしょう。
▸こんな人・用途に
リソースの限られたエッジデバイスでの多言語音声認識。
日本語を含む多言語会議のリアルタイム文字起こしや翻訳。
固有名詞や専門用語が頻出するビジネスシーンでの高精度な transcription。
◆入手方法・リンク
Apache 2.0ライセンスで公開されており、transformersやvLLMからすぐに利用可能です。詳細なアーキテクチャやトレーニングデータ、使用例はmodel cardで確認できます。
SOURCE: Hugging Face (2026-03-09)

