DeepInfra on Hugging Face Inference Providers 🔥 カバー画像

Hugging Face

Hugging Face が DeepInfra on Hugging Face Inference Providers 🔥 をリリース ── 最安値クラスのサーバーレス推論がHub直結で使えるように

ByLLM Watch編集部 2026年4月30日

HUGGING FACE

最終更新: 2026年04月30日 08:02　元記事 →

これは地味に嬉しいアップデート。Hugging FaceのHub上で直接サーバーレス推論を叩けるプロバイダーとして、DeepInfraが正式に加わった。100種類以上のモデルが業界最安値レベルのトークン単価で使えるって、開発者にとってかなり悪くない選択肢になるはず。

▸何が変わったのか

DeepInfraがHugging Face HubのInference Providerとしてサポート開始。カタログは100モデル以上で、LLMからtext-to-image、text-to-video、embeddingsまで幅広くカバー。初期統合では会話・テキスト生成タスクに対応し、DeepSeek V4、Kimi-K2.6、GLM-5.1といった人気オープンウェイトLLMがすぐ使える。追加タスク（text-to-image等）は今後順次ロールアウト。APIキーを自分で設定する「Custom key」モードと、HF経由で課金される「Routed by HF」モードの2つから選べる。

◈前モデル / 競合との比較

他のInference Providerと比べた際の明確な強みは、業界最安値クラスのトークン単価。ただし初期対応タスクが会話・テキスト生成のみで、text-to-image等は今後の対応予定。

◈技術背景と意義

サーバーレス推論とは、自分でGPUサーバーを立てなくてもAPI経由でモデルを使える仕組み。Hugging Faceは複数プロバイダーを統合していて、モデルページからワンクリックで切り替え可能。DeepInfraは特にコストパフォーマンスに優れた選択肢。Python SDK（huggingface_hub >= 1.11.2）とJavaScript SDK（@huggingface/inference）のどちらでもシームレスに呼び出せる。

▸こんな人・用途に

とにかく安くLLM APIを叩きたい個人開発者・スタートアップ。エージェントハーネス（LangChain等）と組み合わせて低コストなAIアプリを構築したい人。複数モデルを気軽に試して比較したい研究者。

◆入手方法・リンク

Hugging Face Hubのモデルページから直接利用可能。Python SDKは huggingface_hub >= 1.11.2、JSは @huggingface/inference から。対応モデル一覧と詳細は https://huggingface.co/DeepInfra を参照。

公式発表を読む

SOURCE: Hugging Face (2026-04-29)

← LLM Watch トップへ

Hugging Face

Hugging Face が Holo3 をリリース ── OSWorldでSOTA獲得、アクティブ10B参数でGPT-5.4超えの衝撃
ByLLM Watch編集部 2026年4月2日

Hugging Faceが発表したPC操作エージェント「Holo3」がOSWorldで78.85%を記録。わずか10BのアクティブパラメータでGPT 5.4を凌駕する驚異の性能。

続きを読む Hugging Face が Holo3 をリリース ── OSWorldでSOTA獲得、アクティブ10B参数でGPT-5.4超えの衝撃
Hugging Face

Hugging Face が NVIDIA Nemotron 3 Nano Omni を公開 ── テキスト・画像・音声・動画を1つのモデルで処理、マルチモーダルの新しい本命
ByLLM Watch編集部 2026年4月29日

NVIDIAの新モデルNemotron 3 Nano Omniがテキスト・画像・音声・動画を統合処理。VoiceBench 89.4、OSWorld 47.4を記録。

続きを読む Hugging Face が NVIDIA Nemotron 3 Nano Omni を公開 ── テキスト・画像・音声・動画を1つのモデルで処理、マルチモーダルの新しい本命
OpenAI

OpenAI が Improving health intelligence in ChatGPT をリリース ── 医師の目線を取り入れた健康アドバイスがついに進化
ByLLM Watch編集部 2026年6月19日

OpenAIがGPT-5.5 Instantを活用し、ChatGPTの健康アドバイス機能を大幅向上。医師の知見を取り入れた評価プロセスで回答の質が劇的に進化。

続きを読む OpenAI が Improving health intelligence in ChatGPT をリリース ── 医師の目線を取り入れた健康アドバイスがついに進化
Google DeepMind

Google DeepMind が Gemma 4 12B をリリース ── エンコーダーレスの統合アーキテクチャ、16GBメモリで動くマルチモーダル
ByLLM Watch編集部 2026年6月10日

Google DeepMindが、16GBメモリで動くエンコーダーフリーの統合マルチモーダルモデル「Gemma 4 12B」をリリース。

続きを読む Google DeepMind が Gemma 4 12B をリリース ── エンコーダーレスの統合アーキテクチャ、16GBメモリで動くマルチモーダル
Hugging Face

Hugging Face が Profiling in PyTorch (Part 3): Attention is all you profile を公開 ── Attentionのプロファイリングで最適化の極意に迫る
ByLLM Watch編集部 2026年7月10日

Hugging FaceがPyTorchプロファイリング連載第3弾を公開。Attentionの各種実装をプロファイラで比較し、最適化の勘所を解説。

続きを読む Hugging Face が Profiling in PyTorch (Part 3): Attention is all you profile を公開 ── Attentionのプロファイリングで最適化の極意に迫る
OpenAI

OpenAI が Virgin Atlantic の Codex 活用事例を公開 ── P1欠陥ゼロでホリデー期のアプリ刷新を達成
ByLLM Watch編集部 2026年5月23日

Virgin AtlanticがCodex活用でモバイルアプリを刷新。ユニットテストカバレッジほぼ100%、P1欠陥ゼロを達成した事例を公開。

続きを読む OpenAI が Virgin Atlantic の Codex 活用事例を公開 ── P1欠陥ゼロでホリデー期のアプリ刷新を達成

コメントを残すコメントをキャンセル