Hugging Face が Unlocking asynchronicity in continuous batching をリリース ── GPUの無駄な待機時間を削り飛ばす
Hugging FaceがCPUとGPUのワークロードを分離し、LLM推論のパフォーマンスを劇的に向上させる非同期バッチングについて詳しく解説。
Hugging FaceがCPUとGPUのワークロードを分離し、LLM推論のパフォーマンスを劇的に向上させる非同期バッチングについて詳しく解説。
Hugging Faceが非同期バッチングでGPU利用率を最大化する手法を解説。CPU・GPU並列動作で約25%のアイドル時間を削減。
AWS上の基盤モデル学習・推論インフラを解説。スケーリング法則は事前学習・ポストトレーニング・テスト時計算の3本柱へ。
CNC加工の可否判断を自動化するマルチエージェント。AMD MI300Xの192GB VRAMを活用し、機密データを外部に送らずに30秒で製造レポートを出力する。
腫瘍学特化のプライバシー保護型臨床意思決定支援システムOncoAgentが登場。9B/27Bのデュアルモデルとマルチエージェント構成で患者データを守りつつ高精度な支援を実現。
12GBの消費者向けGPUで動くサイバー防御特化モデル「CyberSecQwen-4B」が登場。8Bモデルを上回る結果に。
Allen AI の EMO はエキスパート 12.5% でフルモデルに迫る性能を実現。人間の定義なしにモジュール構造を創発する新 MoE。
AMD製GPU「MI300X」とROCmを活用し、CUDAに依存せずに医療用AIモデルを高速・高精度でファインチューニングした事例が公開。
vLLM V0→V1移行でRL訓練が崩壊。ログ確率の不一致を4つの修正で解決した技術レポート。
Hugging FaceがOpen ASR Leaderboardにベンチマークの過学習を防ぐ機能を追加。非公開データで真の性能を評価。