Zhipu AI が SCAIL-2 をリリース ── 骨格推定なしでエンドツーエンドのキャラクターアニメーションを実現
キャラクターの動画生成において、骨格抽出などの面倒な前処理って本当に手間がかかる。Zhipu AIがHugging Faceに公開した「SCAIL-2」は、そんな中間表現に頼らないエンドツーエンドの駆動を実現していてかなり熱い。教師モデルを超える新たな能力を獲得しており、動物を使った駆動までこなせるのがとにかく面白い。
▸何が変わったのか
従来のアプローチではスケルトンマップなどの「中間表現」への依存が避けられなかった。しかしSCAIL-2は、SCAIL-Preview、Wan-Animate、MoChaを使って合成した60Kのモーションペアを学習し、この依存を完全に排除。その結果、エンドツーエンドでの駆動に成功した。さらに、クロスアイデンティティでのキャラクター置換や、動物を駆動源にするシナリオ、SAM3D-Bodyメッシュレンダリングのゼロショットサポートといった、教師モデルを超える創発能力も獲得している。解像度は512pと704pの両方をサポートし、ポーズ駆動や置換は704pでより高いパフォーマンスを発揮する。
◈前モデル / 競合との比較
従来手法はスケルトンマップなどの曖昧な中間表現に依存し、驚異源が人間の動きに限定されるという強い制約があった。SCAIL-2はこの制約を取り払ったことで、動物駆動や多人数のアニメーションといった複雑なシナリオをこなせるようになっている。
◈技術背景と意義
これまでのキャラクターアニメーションは、一度「関節の位置」を抽出してから画像を動かす2段構えが主流だった。しかし複雑な動きや人間以外のキャラクターを扱う際、この関節情報がかえってノイズになっていたのだ。SCAIL-2は動画から直接アニメーションを生成するエンドツーエンド方式を採用。これにより、人間はもちろん動物の動きも参考にしてアバターを動かせるようになった。Wan VAEとT5がチェックポイントに統合されている点も地味に嬉しい。
▸こんな人・用途に
– 人間以外の動物の動きを参考にした、ユニークなキャラクターアニメーションの制作。
– 別人の動画を用意するだけで完成する、クロスアイデンティティなキャラクター置換。
– SAM3D-Bodyなどの高度な3Dメッシュを利用した、精准なコントロールが求められる映像制作。
◆入手方法・リンク
SCAIL-2はオープンソースとしてHugging Faceで公開されている。推論コードや環境構築の詳細については、プロジェクトページおよびコードリポジトリを参照してほしい。ダウンロード時にはWan2.1VAE.pthやumt5-xxlなどが同梱される。
SOURCE: Zhipu AI (2026-06-09)