モデルサービングの制限とリージョン
この記事では、 Mosaic AI Model Serving エンドポイントの種類とサポートされているエンドポイントの種類の制限事項と利用可能なリージョンをまとめています。
リソースとペイロードの制限
Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
次の表は、モデルサービングエンドポイントのリソースとペイロードの制限をまとめたものです。
機能 | 粒度 | 上限 |
---|---|---|
ペイロードサイズ | リクエストごと | 16メガバイト 基盤モデル、外部モデル、または AI エージェントを提供するエンドポイントの場合、制限は 4 MB です。 |
1 秒あたりのクエリ数 (QPS) | ワークスペースごと | 200.QPS を高くするには、 ルートの最適化を有効にします。 |
モデルの実行時間 | リクエストごと | 297秒 |
CPU エンドポイント モデルのメモリ使用量 | エンドポイントごと | 4 GB |
プロビジョニングされた同時実行数 | ワークスペースごと | 200 の同時実行数。 Databricksアカウントチームに連絡することで増やすことができます。 |
オーバーヘッド遅延 | リクエストごと | 50 ミリ秒未満 |
initスクリプト | initスクリプトはサポートされていません。 | |
基盤モデル APIs rate limits | ワークスペースごと | トークン単位の従量課金とプロビジョニング スループット制限の詳細については、 基盤モデル APIs rate limits and quotas を参照してください。 |
ネットワークとセキュリティの制限
- モデルサービング エンドポイントは 、アクセス制御 によって保護され、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。
- モデルサービングでは、本番運用デプロイメントが不安定になるリスクがあるため、既存のモデルイメージに対するセキュリティパッチの提供は行っておりません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricks アカウントチームにお問い合わせください。
基盤モデル APIの制限
詳細については、 基盤モデル APIsに関する詳細情報:
- レート制限とクォータ : 基盤モデル APIs レート制限とクォータ - TPM 制限、リージョンの可用性、モデル固有の制限が含まれます
- コンプライアンスとセキュリティ : コンプライアンスと セキュリティ APIs 基盤モデル - コンプライアンス標準、データ処理、セキュリティ要件をカバー
利用可能な地域
サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。
ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロールプレーン によって提供されている場合、ワークスペースはモデルサービングをサポートしていません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。 詳細については、 Databricks アカウントチームにお問い合わせください。
詳細については、 情報 機能の地域的な可用性については、「 モデルサービング機能の可用性」を参照してください。
Databricks-hosted 基盤モデルのリージョンの可用性については、「Databricksでホストされている基盤モデル」を参照してください。