Hugging Face が Sentence Transformers でのマルチモーダル検索モデル学習・ファインチューニング手法を公開 ── 自前データで学習して4倍デカいモデルを凌駕
RAGや意味検索で欠かせないEmbeddingモデル。テキストだけでなく、画像や表が入り組んだドキュメントまで扱えるマルチモーダル検索、かなり気になりますよね。Hugging FaceのSentence Transformersチームから、いよいよ自前データで学習・ファインチューニングする実践的なガイドが公開された。ベースモデルをちょっと鍛え直すだけで、4倍デカいモデルをぶち抜くとか、これは試すしかない。
▸何が変わったのか
Tom Aarsen氏による最新のブログポストで、Sentence Transformersを使ったマルチモーダルEmbeddingおよびRerankerモデルの学習・ファインチューニング手法が詳しく解説された。実践例として「Qwen/Qwen3-VL-Embedding-2B」をVisual Document Retrieval (VDR) 向けにファインチューニングする手順が紹介されている。ドメイン特化のデータで学習させた結果、評価指標であるNDCG@10がベースモデルの「0.888」から「0.947」へと大幅にジャンプアップ。完成した「tomaarsen/Qwen3-VL-Embedding-2B-vdr」は、テストした全ての既存VDRモデル(自身の4倍のサイズを持つものも含む)を打ち負かす驚異的な結果を叩き出した。 CachedMultipleNegativesRankingLossやMatryoshkaLossといった学習コンポーネントについてもしっかり網羅されている。
◈前モデル / 競合との比較
ベースモデルである「Qwen/Qwen3-VL-Embedding-2B」のNDCG@10が0.888だったのに対し、今回の手法でファインチューニングしたモデルは0.947を記録。なんと、パラメータ数が4倍もあるような巨大な既存モデルすらも下回る性能を、たった2Bの軽量モデルで実現してしまった。
◈技術背景と意義
テキスト検索と違って、グラフや表が含まれたドキュメントの画像から「第3四半期の売上」といった情報をピンポイントで探し出すのは、AIにとっても至難の業だ。汎用的なマルチモーダルモデルは万能だけど、特定の複雑なタスクになるとどうしても精度が落ちてしまう。今回の手法は、そうした汎用モデルを自分専用のデータセットで再教育し、特定のタスクに特化させるためのステップを分かりやすく提示してくれている。RAG(検索拡張生成)の精度を根本から引き上げたい人にとって、めちゃくちゃ参考になるアプローチだ。
▸こんな人・用途に
– グラフや表が多用されたPDFの社内文書などから、自然言語の質問で該当箇所を検索したいシステムの構築。
– テキスト、画像、音声が混在する複雑なデータソースに対して、より高精度なマルチモーダルRAGを組みたい場合。
– 巨大なモデルを動かせないリソース制限のある環境で、軽量モデルをファインチューニングして限界までパフォーマンスを引き上げたいケース。
◆入手方法・リンク
技術的な詳細や具体的なコードは、Hugging Faceのブログ記事「Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers」で無料で公開されている。実際のデータセット形式やTrainerの設定なども丁寧に解説されているので、そのまま手元で再現可能だ。
SOURCE: Hugging Face (2026-04-16)


