Hugging Face が Multimodal Embedding & Reranker Models with Sentence Transformers をリリース ── テキスト・画像・音声・動画を同じAPIで扱えるマルチモーダル対応が到来
ついにSentence Transformersでテキストだけじゃなく、画像・音声・動画まで同じAPIで扱えるようになった。v5.4のアップデートが地味にすごい。今まで別々のパイプラインで処理していたマルチモーダルデータを、統一的な埋め込み空間で一気に比較できるようになったのだ。
▸何が変わったのか
Sentence Transformersのv5.4アップデートで、テキスト・画像・音声・動画を同じAPIでエンコード・比較できるマルチモーダル対応が追加された。従来の埋め込みモデルはテキストのみを固定サイズベクトルに変換していたが、新しいマルチモーダル埋め込みモデルは異なるモダリティの入力を共有埋め込み空間にマッピングする。また、マルチモーダルリランカーも追加され、画像やテキスト画像混合文書などのペアの関連性スコアリングが可能に。VLMベースモデル(Qwen3-VL-2Bなど)は約8GB VRAM、8B版は約20GB VRAMが必要で、CPU推論には不向きとのこと。
◈技術背景と意義
埋め込みモデルっていうのは、テキストや画像を「意味の数値ベクトル」に変換する仕組み。従来はテキストだけだったのが、今回のアップデートで画像・音声・動画も同じ空間に変換できるようになった。つまり「猫の写真」というテキストで、実際の猫の画像を検索できるようになるわけ。RAG(検索拡張生成)でも、テキストだけでなく画像や文書の図表も含めて検索・参照できるパイプラインが組める。これはマルチモーダルAIの実用化がかなり進むアップデートだと思う。
▸こんな人・用途に
従来の埋め込みモデルはテキストのみ対応、CLIPモデルは画像・テキストの2モダリティ対応。今回のアップデートは音声・動画も含めた4モダリティ対応で、かつリランカー機能も統合されている点が大きく異なる。ただしCPU推論には不向きで、テキストのみやCLIPモデルの方がCPUに適していると明記されている。
◆入手方法・リンク
pip install -U “sentence-transformers[image]” で画像サポート、”sentence-transformers” で音声、”sentence-transformers” で動画サポートをインストール可能。必要なモダリティに応じて組み合わせてインストールできる。
SOURCE: Hugging Face (2026-04-09)

