Hugging Face が Multimodal Embedding & Reranker Models with Sentence Transformers をリリース ── テキスト・画像・音声・動画を同じAPIで扱えるマルチモーダル対応が到来
Sentence Transformers v5.4でテキスト・画像・音声・動画を同じAPIで扱うマルチモーダル埋め込み・リランカーが追加
Sentence Transformers v5.4でテキスト・画像・音声・動画を同じAPIで扱うマルチモーダル埋め込み・リランカーが追加
Hugging FaceがAIエージェント向け長期学習システムALTK-Evolveを発表。経験から原則を抽出しガイドラインに変換。
IBM ResearchがALTK-Evolveを発表。AIエージェントに長期記憶を実装し、AppWorldでΔ14.2%の信頼性向上。
Hugging Faceのセキュアなモデルフォーマット「Safetensors」がPyTorch Foundationへ移管。ガバナンスがLinux Foundationに移行し、ベンダー中立性を獲得。
Hugging Faceのgradio.ServerがReact/Svelte等のカスタムフロントエンドとGradioバックエンドの直接連携を可能に
GoogleのGemma 4が登場。音声・画像対応でデバイス上でも動く、Apache 2.0ライセンスのマルチモーダルモデル。
Hugging Faceが発表したPC操作エージェント「Holo3」がOSWorldで78.85%を記録。わずか10BのアクティブパラメータでGPT 5.4を凌駕する驚異の性能。
Falcon Perceptionは0.6Bの小型モデルながら、画像と言語を1つのTransformerで早期融合しSAM 3を上回るベンチマークを記録した。
IBM Granite 4.0 3B Visionは企業向け文書理解に特化したVLM。ChartNetとDeepStack変種で3Bパラメータを実現。
Hugging FaceがTRL v1.0をリリース。75以上のポストトレーニングメソッドを実装し、本番システムで使える安定した図書館へ進化。