Google DeepMind が Gemini Omni をリリース ── 対話で動画を編集、あらゆる入力から生成可能な新モデル
Google DeepMindが画像・音声・動画・テキストを入力して動画を生成し、対話で編集できる「Gemini Omni」を発表。
Google DeepMindが画像・音声・動画・テキストを入力して動画を生成し、対話で編集できる「Gemini Omni」を発表。
Google DeepMindのSimulate real-world places with Project Genie and Street Viewリリース情報
Google DeepMindの「Co-Scientist」が人間の細胞を若返らせる新因子を発見。AIが遺伝子研究を劇的に加速させた事例を紹介。
Hugging Face が Ettin Reranker Family をリリース。ModernBERT ベースの 6 サイズ展開、各クラス SOTA 狙い。
Hugging FaceがModernBERTベースのリランカー「Ettin」6モデルを公開。17M〜1Bの豊富なサイズ展開が魅力。
NVIDIAのCosmos Predict 2.5をLoRA/DoRAでファインチューニングし、ロボット用合成データを生成する手法がHugging Faceで公開。80GB GPU1枚で学習可能。
PaddleOCR 3.5がTransformers推論バックエンドに対応。PP-OCRv5やPaddleOCR-VL 1.5をHugging Faceエコシステムで簡単利用可能に。
Hugging FaceがAIエージェントの汎用性を品質とコストの両面から評価する新ベンチマークを公開。
Hugging Faceがエージェントシステム全体を評価するOpen Agent Leaderboardを公開。品質もコストも見える化する新しいベンチマーク。
OpenAIがChatGPT内で金融口座と連携する新機能を米国Proユーザー向けにプレビュー公開。AIが文脈を把握しアドバイスを提供。