Hy-MT1.5-1.8B-1.25bit カバー画像

Tencent

Tencent が Hy-MT1.5-1.8B-1.25bit をリリース ── 440MBで33言語翻訳、スマホでサクサク動く極限の軽量モデル

ByLLM Watch編集部 2026年4月29日

TENCENTOSS

最終更新: 2026年04月29日 14:03　元記事 →

スマホのオフライン翻訳、どこまで進化すると思う？ Tencentがなんと440MBという超軽量サイズで動く翻訳特化モデルをぶっ込んできた。モデルサイズは1.8Bパラメータなのに、72Bクラスの巨大モデルや商用翻訳APIを超える精度を叩き出している。これは正直、かなりヤバい波が来てる。

▸何が変わったのか

今回リリースされた「Hy-MT1.5-1.8B-1.25bit」の最大のトピックは、ACL 2026採録の「Sherry」量子化アルゴリズムによる極限の軽量化だ。具体的には「3:4の細粒度スパース戦略」を採用し、4つの重みのうち重要な3つを1ビットで保持、残り1つをゼロにする仕組み。これにより4つの重みをわずか5ビットに圧縮し、実質1.25ビット幅を実現している。元々3.3GBあったFP16モデルが驚異の440MBに収まった。ちなみに574MBの2bit版も同時リリース。どちらも33言語・1,056の翻訳方向をネイティブサポートしている。

◈前モデル / 競合との比較

ベースとなった「Hy-MT1.5-1.8B」は、わずか1.8Bパラメータでありながら「Tower-Plus-72B」や「Qwen3-32B」といった巨大OSSモデルを包括的に凌駕。さらに「Microsoft Translator」や「Doubao Translator」といったメジャーな商用APIの翻訳品質をも全面的に上回るスコアを叩き出している。

◈技術背景と意義

AIモデルの軽量化（量子化）は、普通は精度との戦いになる。でも今回の「Sherry」は、重みの重要度を見極めて不要な部分を容赦なく削り落とすアプローチをとっている。さらにモバイルCPU向けに特化して開発された「STQカーネル」と組み合わせることで、ハードウェアの処理しやすい形に最適化。このおかげで、メモリの少ない一般的なスマホでもネット接続なしで高品質な翻訳がサクサク動くというわけだ。

▸こんな人・用途に

– 海外旅行時のシームレスなオフライン翻訳：通信費もプライバシーも気にせず使える
– 低スペック端末での多言語コミュニケーション：リソースが限られた環境でもリッチな翻訳体験を提供

◆入手方法・リンク

モデルの重みとGGUFフォーマットはHugging Faceのリポジトリから直接ダウンロード可能。量子化の技術詳細や実装については、AngelSlimとHY-MTのGitHubリポジトリを要チェック。

公式発表を読む

SOURCE: Tencent (2026-04-29)

← LLM Watch トップへ

Tencent

Tencent が Hy-Embodied-0.5-VLA-UMI をリリース ── 1万時間の実データ学習で達成したロボット汎用モデル
ByLLM Watch編集部 2026年6月15日

Tencentがロボット操作AI「Hy-Embodied-0.5-VLA-UMI」を公開。1万時間超のデモデータ学習でRoboTwin 2.0ベンチマークSOTA達成。

続きを読む Tencent が Hy-Embodied-0.5-VLA-UMI をリリース ── 1万時間の実データ学習で達成したロボット汎用モデル
Zhipu AI

Zhipu AI が SCAIL-2 をリリース ── 骨格推定なしでエンドツーエンドのキャラクターアニメーションを実現
ByLLM Watch編集部 2026年6月9日

Zhipu AIがオープンソースのキャラクター動画モデル「SCAIL-2」を公開。骨格抽出なしでエンドツーエンド駆動し、動物の動きにも対応。

続きを読む Zhipu AI が SCAIL-2 をリリース ── 骨格推定なしでエンドツーエンドのキャラクターアニメーションを実現
Alibaba (Qwen)

Alibaba (Qwen) が Qwen-AgentWorld-35B-A3B をリリース
ByLLM Watch編集部 2026年6月24日

Alibaba (Qwen)のQwen-AgentWorld-35B-A3Bリリース情報

続きを読む Alibaba (Qwen) が Qwen-AgentWorld-35B-A3B をリリース
MiniMax

MiniMax が MiniMax-M3 をリリース ── 100万コンテキストを20分の1の計算量で処理する超大型モデル
ByLLM Watch編集部 2026年6月12日

MiniMaxが約428Bパラメータのオープンソースモデル「MiniMax-M3」を公開。独自の疎注意機構で100万コンテキストの処理を劇的に高速化。

続きを読む MiniMax が MiniMax-M3 をリリース ── 100万コンテキストを20分の1の計算量で処理する超大型モデル
Mistral

Mistral が Leanstral-2603 をリリース
ByLLM Watch編集部 2026年3月17日

MistralのLeanstral-2603リリース情報

続きを読む Mistral が Leanstral-2603 をリリース
ByteDance

ByteDance が SimArt をリリース ── 可動する3D構造をマルチモーダル入力から生成
ByLLM Watch編集部 2026年5月28日

ByteDanceがSimArtの重みを公開。Qwen3-VL-8Bベースのモデルで、マルチモーダル入力から関節付き3D構造を生成。

続きを読む ByteDance が SimArt をリリース ── 可動する3D構造をマルチモーダル入力から生成

コメントを残すコメントをキャンセル