NVIDIA が高速マルチリンガルOCRモデル「Nemotron OCR v2」をリリース ── 合成データ1200万枚で多言語対応を突破
NVIDIAのNemotron OCR v2が合成データ1200万枚で6言語対応。A100で34.7pages/secの高速処理を実現。
NVIDIAのNemotron OCR v2が合成データ1200万枚で6言語対応。A100で34.7pages/secの高速処理を実現。
EC向け対話エージェントを強化学習で訓練する「EcomRLVE-GYM」が紹介。8つの環境と12軸の難易度カリキュラムを提供。
Hugging Faceがエージェント生成PRの問題点を告発。transformersの設計思想をエージェントが理解せず、メンテナーの負担が増大している現状を報告。
Sentence Transformersでマルチモーダル検索モデルを学習・ファインチューニングする手法が公開。自前データで鍛えれば4倍の巨大モデルをも凌駕する。
IBM ResearchがVAKRAベンチマークを公開。8,000以上のAPI・62ドメインでエージェントの実力を徹底評価する企業向けベンチマーク。
Hugging FaceのMeet HoloTab by HCompany. Your AI browser companion.リリース情報
手元のGPUで最大720p・60FPSのリアルタイム空間生成を実現。Overworldの最新モデル「Waypoint-1.5」の詳細と魅力を紹介。
Sentence Transformers v5.4でテキスト・画像・音声・動画を同じAPIで扱うマルチモーダル埋め込み・リランカーが追加
Hugging FaceがAIエージェント向け長期学習システムALTK-Evolveを発表。経験から原則を抽出しガイドラインに変換。
IBM ResearchがALTK-Evolveを発表。AIエージェントに長期記憶を実装し、AppWorldでΔ14.2%の信頼性向上。