DisCa カバー画像

Tencent

Tencent が DisCa をリリース ── 動画生成の高速化、「学習できるキャッシュ」で品質を死守

Byren_admin 2026年4月15日

TENCENTOSS

最終更新: 2026年04月15日 19:06　元記事 →

動画生成AIって、進化は早いけど計算コストがヤバい。TencentのHunyuanチームが、CVPR 2026採択の論文で面白いアプローチを出してきた。既存の高速化手法同士の「相性の悪さ」を、学習可能な軽量モジュールで解決しようという構想だ。

▸何が変わったのか

初めて「distillation-compatible learnable feature caching」を導入した点が最大のポイント。従来のFeature Cachingは学習なしで高速化できる反面、圧縮を進めると意味やディテールが落ちる問題があった。一方のStep Distillationも、動画生成では数ステップにすると品質が激減。この2つを組み合わせると、サンプリングステップの疎さから品質低下がさらに悪化する。DisCaは軽量なPredictor（DiT全体の4%未満）を敵対的学習で訓練し、高次元特徴の進化過程をより正確に捉える仕組み。さらに「Restricted MeanFlow」という保守的アプローチで、大規模動画モデルでも安定したロスレス蒸留を実現している。

◈前モデル / 競合との比較

従来の学習なしFeature Cachingは手軽だが、圧縮を進めると意味やディテールがドロップする。Step Distillationも動画では劇的な品質低下が発生する。DisCaは学習可能なPredictorを導入し、さらにRestricted MeanFlowで高圧縮蒸留時の安定性を確保。HunyuanVideo1.5-i2vおよびHunyuanVideo1.0-t2vで検証されている。

◈技術背景と意義

動画生成の高速化で定番の「Feature Caching」は、途中計算を再利用してサクサク動かす手法。ただ、再利用しすぎると動画の品質が犠牲になる。もう一つの「Step Distillation」は、少ないステップで生成できるようにモデル自体を圧縮する技術。画像ではうまくいくけど、動画になると途端にボロボロに。DisCaは、この2つの手法の弱点を補い合うように設計された、学習可能なキャッシュ機構。軽量Predictorが賢く特徴量を予測するので、高速化しつつ品質をキープできるというわけ。

◆入手方法・リンク

Hugging Faceでオープンソース公開中。GitHubリポジトリ（Tencent-Hunyuan/DisCa）も利用可能で、HunyuanVideo-1.0のText-to-Video推論スクリプトも提供されている。

公式発表を読む

SOURCE: Tencent (2026-04-09)

← LLM Watch トップへ

MiniMax

MiniMax が MiniMax-M2.7 をリリース ── 自己進化するエージェント特化モデル、本番障害を3分未満で復旧
Byren_admin 2026年4月12日

MiniMax-M2.7は自己進化サイクルを実装したエージェント特化モデル。MLE Bench Liteでメダル率66.6%、本番障害復旧を3分未満で達成。

続きを読む MiniMax が MiniMax-M2.7 をリリース ── 自己進化するエージェント特化モデル、本番障害を3分未満で復旧
Tencent

Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成
Byren_admin 2026年4月16日

Tencentがオープンソースで公開したHY-World 2.0は、テキストや画像から編集可能なリアル3D空間を直接生成する革新的なモデルです。

続きを読む Tencent が HY-World-2.0 をリリース ── 動画じゃない、遊べるリアル3Dアセットを直接生成
Tencent

Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ
Byren_admin 2026年3月31日2026年3月31日

TencentがSequential Hidden Decoding手法でシーケンス長を8倍に拡張した8Bモデルを公開。Qwen3ベースでコンテキスト131Kトークン対応。

続きを読む Tencent が Sequential-Hidden-Decoding-8B-n8-Instruct をリリース ── 同じTransformerでシーケンス長を8倍に伸ばす異色のアプローチ
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.5-0.8B-Base をリリース ── 0.8Bで最大100万トークン対応の超軽量モデル
Byren_admin 2026年3月2日2026年3月10日

Alibabaが0.8Bパラメータの「Qwen3.5-0.8B-Base」を公開。100万トークン超対応で衝撃。

続きを読む Alibaba (Qwen) が Qwen3.5-0.8B-Base をリリース ── 0.8Bで最大100万トークン対応の超軽量モデル
Tencent

Tencent が HY-Embodied-0.5 をリリース ── 思考モードを搭載した画像言語モデル
Byren_admin 2026年4月9日

Tencentが画像と言語を処理するオープンソースモデル「HY-Embodied-0.5」を公開。16GB VRAMで動作し、思考モードも搭載。

続きを読む Tencent が HY-Embodied-0.5 をリリース ── 思考モードを搭載した画像言語モデル
Tencent

Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル
Byren_admin 2026年3月7日2026年3月10日

TencentがLLMベースのビジョンエンコーダを採用したVLM「Penguin-VL-2B」をOSSで公開。効率的な動画理解が特徴。

続きを読む Tencent が Penguin-VL-2B をリリース ── LLMを「目」に改造した画期的な効率化モデル

コメントを残すコメントをキャンセル