メインコンテンツまでスキップ

モデルサービングの制限とリージョン

この記事では、 Mosaic AI Model Serving エンドポイントの種類とサポートされているエンドポイントの種類の制限事項と利用可能なリージョンをまとめています。

リソースとペイロードの制限

Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

次の表は、モデルサービングエンドポイントのリソースとペイロードの制限をまとめたものです。

機能

粒度

上限

ペイロードサイズ

リクエストごと

16メガバイト 基盤モデル外部モデル、または AI エージェントを提供するエンドポイントの場合、制限は 4 MB です。

1 秒あたりのクエリ数 (QPS)

ワークスペースごと

200.QPS を高くするには、 ルートの最適化を有効にします。

モデルの実行時間

リクエストごと

297秒

CPU エンドポイント モデルのメモリ使用量

エンドポイントごと

4 GB

プロビジョニングされた同時実行数

ワークスペースごと

200 の同時実行数。 Databricksアカウントチームに連絡することで増やすことができます。

オーバーヘッド遅延

リクエストごと

50 ミリ秒未満

initスクリプト

initスクリプトはサポートされていません。

基盤モデル APIs rate limits

ワークスペースごと

トークン単位の従量課金とプロビジョニング スループット制限の詳細については、 基盤モデル APIs rate limits and quotas を参照してください。

ネットワークとセキュリティの制限

  • モデルサービング エンドポイントは 、アクセス制御 によって保護され、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。
  • モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。

基盤モデル APIの制限

詳細については、 基盤モデル APIsに関する詳細情報:

利用可能な地域

注記

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。

ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロールプレーン によって提供されている場合、ワークスペースはモデルサービングをサポートしていません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。 詳細については、 Databricks アカウントチームにお問い合わせください。

詳細については、 情報 機能の地域的な可用性については、「 モデルサービング機能の可用性」を参照してください。

Databricks-hosted 基盤モデルのリージョンの可用性については、「Databricksでホストされている基盤モデル」を参照してください。