SCAIL-2 カバー画像

Zhipu AI

Zhipu AI が SCAIL-2 をリリース ── 骨格推定なしでエンドツーエンドのキャラクターアニメーションを実現

ByLLM Watch編集部 2026年6月9日

ZHIPU AIOSS

最終更新: 2026年06月09日 20:03　元記事 →

キャラクターの動画生成において、骨格抽出などの面倒な前処理って本当に手間がかかる。Zhipu AIがHugging Faceに公開した「SCAIL-2」は、そんな中間表現に頼らないエンドツーエンドの駆動を実現していてかなり熱い。教師モデルを超える新たな能力を獲得しており、動物を使った駆動までこなせるのがとにかく面白い。

▸何が変わったのか

従来のアプローチではスケルトンマップなどの「中間表現」への依存が避けられなかった。しかしSCAIL-2は、SCAIL-Preview、Wan-Animate、MoChaを使って合成した60Kのモーションペアを学習し、この依存を完全に排除。その結果、エンドツーエンドでの駆動に成功した。さらに、クロスアイデンティティでのキャラクター置換や、動物を駆動源にするシナリオ、SAM3D-Bodyメッシュレンダリングのゼロショットサポートといった、教師モデルを超える創発能力も獲得している。解像度は512pと704pの両方をサポートし、ポーズ駆動や置換は704pでより高いパフォーマンスを発揮する。

◈前モデル / 競合との比較

従来手法はスケルトンマップなどの曖昧な中間表現に依存し、驚異源が人間の動きに限定されるという強い制約があった。SCAIL-2はこの制約を取り払ったことで、動物駆動や多人数のアニメーションといった複雑なシナリオをこなせるようになっている。

◈技術背景と意義

これまでのキャラクターアニメーションは、一度「関節の位置」を抽出してから画像を動かす2段構えが主流だった。しかし複雑な動きや人間以外のキャラクターを扱う際、この関節情報がかえってノイズになっていたのだ。SCAIL-2は動画から直接アニメーションを生成するエンドツーエンド方式を採用。これにより、人間はもちろん動物の動きも参考にしてアバターを動かせるようになった。Wan VAEとT5がチェックポイントに統合されている点も地味に嬉しい。

▸こんな人・用途に

– 人間以外の動物の動きを参考にした、ユニークなキャラクターアニメーションの制作。
– 別人の動画を用意するだけで完成する、クロスアイデンティティなキャラクター置換。
– SAM3D-Bodyなどの高度な3Dメッシュを利用した、精准なコントロールが求められる映像制作。

◆入手方法・リンク

SCAIL-2はオープンソースとしてHugging Faceで公開されている。推論コードや環境構築の詳細については、プロジェクトページおよびコードリポジトリを参照してほしい。ダウンロード時にはWan2.1VAE.pthやumt5-xxlなどが同梱される。

公式発表を読む

SOURCE: Zhipu AI (2026-06-09)

← LLM Watch トップへ

Tencent

Tencent が Hy-Embodied-RxBrain-1.0 をリリース ── 言語思考と視覚イメージを同時にこなすロボット向け基盤モデル
ByLLM Watch編集部 2026年7月15日

Tencentが、言語推論と視覚的な未来予測を1つのモデルに統合したロボット向け基盤モデル「Hy-Embodied-RxBrain-1.0」を公開。

続きを読む Tencent が Hy-Embodied-RxBrain-1.0 をリリース ── 言語思考と視覚イメージを同時にこなすロボット向け基盤モデル
DeepSeek

DeepSeek が DeepSeek-V4 をリリース ── 1兆6000億パラメータで100万トークンの処理コストを劇的に削減
ByLLM Watch編集部 2026年6月27日

DeepSeekが「DeepSeek-V4」をリリース。1兆6000億パラメータでありながら、100万トークン処理時の計算コストを劇的に削減することに成功した超効率MoEモデル。

続きを読む DeepSeek が DeepSeek-V4 をリリース ── 1兆6000億パラメータで100万トークンの処理コストを劇的に削減
Tencent

Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話
ByLLM Watch編集部 2026年3月16日

Tencentが音声を直接処理する7Bパラメータのエンドツーエンド音声言語モデルCovo-Audio-ChatをOSSで公開。

続きを読む Tencent が Covo-Audio-Chat をリリース ── 音声から音声へ、テキストを介さないエンドツーエンド対話
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3-ForcedAligner-0.6B-hf をリリース
ByLLM Watch編集部 2026年6月26日

Alibaba (Qwen)のQwen3-ForcedAligner-0.6B-hfリリース情報

続きを読む Alibaba (Qwen) が Qwen3-ForcedAligner-0.6B-hf をリリース
Tencent

Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ
ByLLM Watch編集部 2026年2月28日2026年3月10日

Tencent、ノイズに強い音声トークナイザ「StableToken」をOSSとして公開。競合を凌駕する耐性を獲得。

続きを読む Tencent が StableToken をリリース ── ノイズ環境でも壊れない堅牢な音声トークナイザ
Tencent

Tencent が Hy-MT1.5-1.8B-1.25bit をリリース ── 440MBで33言語翻訳、スマホでサクサク動く極限の軽量モデル
ByLLM Watch編集部 2026年4月29日

Tencentが超軽量翻訳モデル「Hy-MT1.5-1.8B-1.25bit」をリリース。440MBでスマホオフライン動作可能な驚異的な1.25ビット量子化を実現。

続きを読む Tencent が Hy-MT1.5-1.8B-1.25bit をリリース ── 440MBで33言語翻訳、スマホでサクサク動く極限の軽量モデル

コメントを残すコメントをキャンセル