DisCa カバー画像

Tencent が DisCa をリリース ── 動画生成の高速化、「学習できるキャッシュ」で品質を死守

TENCENTOSS

最終更新: 2026年04月15日 19:06 元記事 →

動画生成AIって、進化は早いけど計算コストがヤバい。TencentのHunyuanチームが、CVPR 2026採択の論文で面白いアプローチを出してきた。既存の高速化手法同士の「相性の悪さ」を、学習可能な軽量モジュールで解決しようという構想だ。

何が変わったのか

初めて「distillation-compatible learnable feature caching」を導入した点が最大のポイント。従来のFeature Cachingは学習なしで高速化できる反面、圧縮を進めると意味やディテールが落ちる問題があった。一方のStep Distillationも、動画生成では数ステップにすると品質が激減。この2つを組み合わせると、サンプリングステップの疎さから品質低下がさらに悪化する。DisCaは軽量なPredictor(DiT全体の4%未満)を敵対的学習で訓練し、高次元特徴の進化過程をより正確に捉える仕組み。さらに「Restricted MeanFlow」という保守的アプローチで、大規模動画モデルでも安定したロスレス蒸留を実現している。

前モデル / 競合との比較

従来の学習なしFeature Cachingは手軽だが、圧縮を進めると意味やディテールがドロップする。Step Distillationも動画では劇的な品質低下が発生する。DisCaは学習可能なPredictorを導入し、さらにRestricted MeanFlowで高圧縮蒸留時の安定性を確保。HunyuanVideo1.5-i2vおよびHunyuanVideo1.0-t2vで検証されている。

技術背景と意義

動画生成の高速化で定番の「Feature Caching」は、途中計算を再利用してサクサク動かす手法。ただ、再利用しすぎると動画の品質が犠牲になる。もう一つの「Step Distillation」は、少ないステップで生成できるようにモデル自体を圧縮する技術。画像ではうまくいくけど、動画になると途端にボロボロに。DisCaは、この2つの手法の弱点を補い合うように設計された、学習可能なキャッシュ機構。軽量Predictorが賢く特徴量を予測するので、高速化しつつ品質をキープできるというわけ。

入手方法・リンク

Hugging Faceでオープンソース公開中。GitHubリポジトリ(Tencent-Hunyuan/DisCa)も利用可能で、HunyuanVideo-1.0のText-to-Video推論スクリプトも提供されている。

SOURCE: Tencent (2026-04-09)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です