MLflow 3 入門: GenAI 向け

Databricks 上の GenAI 向け MLflow 3 の使用を開始するには、次の手順に従ってください。

Mad Libsにヒントを得た、文章テンプレートの空白を埋めるおもちゃの GenAI アプリケーションを定義する
LLM リクエスト、レスポンス、メトリクスを記録するためにアプリ をトレースする
MLflowとLLMの判断機能を使用してデータに基づいてアプリ を評価する
人間の評価者からの フィードバックの収集

一致するサンプルノートブックをインポートして、このチュートリアルを Databricks で実行します。

環境設定

必要なパッケージをインストールします。
- mlflow[databricks]: より多くの機能と改善を得るには、最新バージョンの MLflow を使用してください。
- openai: このアプリは、OpenAI API クライアントを使用して、Databricks でホストされるモデルを呼び出します。
Python
```
%pip install -q --upgrade "mlflow[databricks]>=3.1.0" openai
dbutils.library.restartPython()
```
MLflowエクスペリメントを作成します。 Databricksノートブックを使用している場合は、このステップをスキップして、安全ノートブック体験を使用できます。それ以外の場合は、環境設定のクイックスタートに従ってエクスペリメントを作成し、 MLflowトラッキングサーバーに接続します。

トレース

下のおもちゃアプリは、簡単な文章完成機能です。OpenAI APIを使用して、 Databricksでホストされる基盤モデルエンドポイントを呼び出します。 MLflow Tracing を使用してアプリをインストルメント化するには、次の 2 つの簡単な変更を追加します。

自動トレースを有効にするには、 mlflow.<library>.autolog()呼び出します。
@mlflow.traceを使用して関数をインストルメントし、トレースの構成方法を定義します。

Python
from databricks.sdk import WorkspaceClient
import mlflow

# Enable automatic tracing for the OpenAI client
mlflow.openai.autolog()

# Create an OpenAI client that is connected to Databricks-hosted LLMs.
w = WorkspaceClient()
client = w.serving_endpoints.get_open_ai_client()

# Basic system prompt
SYSTEM_PROMPT = """You are a smart bot that can complete sentence templates to make them funny.  Be creative and edgy."""

@mlflow.trace
def generate_game(template: str):
    """Complete a sentence template using an LLM."""

    response = client.chat.completions.create(
        model="databricks-claude-3-7-sonnet",  # This example uses Databricks hosted Claude 3 Sonnet. If you provide your own OpenAI credentials, replace with a valid OpenAI model e.g., gpt-4o, etc.
        messages=[
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": template},
        ],
    )
    return response.choices[0].message.content

# Test the app
sample_template = "Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)"
result = generate_game(sample_template)
print(f"Input: {sample_template}")
print(f"Output: {result}")

Output
    Input: Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)
    Output: Yesterday, a sleep-deprived barista brought a leaf blower and used it to serenade a very confused squirrel.

文章ゲームトレース

セル出力のトレース視覚化には、入力、出力、および呼び出しの構造が表示されます。この単純なアプリは単純なトレースを生成しますが、入力と出力の社内カウントなどの貴重な情報がすでに含まれています。より複雑なエージェントは、エージェントの動作を理解してデバッグするのに役立つネストされたスパンを持つトレースを生成します。トレースの概念の詳細については、トレースのドキュメントを参照してください。

上記の例では、OpenAI クライアントを使用して Databricks LLM に接続するため、MLflow に OpenAI 自動ログ記録が使用されます。MLflow Tracing は、Anthropic、LangGraph など 20 以上の SDK と統合されます。

評価

MLflow を使用すると、データセットに対して自動評価を実行して品質を判断できます。MLflow評価では、 SafetyやCorrectnessなどの一般的なメトリクス、または完全にカスタムのメトリクスを判断できる スコアラー を使用します。

評価データセットを作成する

以下におもちゃの評価データセットを定義します。実際には、ログに記録された使用状況データからデータセットを作成することになるでしょう。詳細については、「MLflow 評価データセットの構築」を参照してください。

Python
# Evaluation dataset
eval_data = [
    {
        "inputs": {
            "template": "Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)"
        }
    },
    {
        "inputs": {
            "template": "I wanted to ____ (verb) but ____ (person) told me to ____ (verb) instead"
        }
    },
    {
        "inputs": {
            "template": "The ____ (adjective) ____ (animal) likes to ____ (verb) in the ____ (place)"
        }
    },
    {
        "inputs": {
            "template": "My favorite ____ (food) is made with ____ (ingredient) and ____ (ingredient)"
        }
    },
    {
        "inputs": {
            "template": "When I grow up, I want to be a ____ (job) who can ____ (verb) all day"
        }
    },
    {
        "inputs": {
            "template": "When two ____ (animals) love each other, they ____ (verb) under the ____ (place)"
        }
    },
    {
        "inputs": {
            "template": "The monster wanted to ____ (verb) all the ____ (plural noun) with its ____ (body part)"
        }
    },
]

スコアラーを使用して評価基準を定義する

以下のコードは、使用するスコアラーを定義します。

Safety、組み込みLLM -as-a-judgeスコアラー
Guidelines、カスタムLLM審査員採点者の一種

MLflow は、カスタムコードベースのスコアラーもサポートします。

Python
from mlflow.genai.scorers import Guidelines, Safety
import mlflow.genai

scorers = [
    # Safety is a built-in scorer:
    Safety(),
    # Guidelines are custom LLM-as-a-judge scorers:
    Guidelines(
        guidelines="Response must be in the same language as the input",
        name="same_language",
    ),
    Guidelines(
        guidelines="Response must be funny or creative",
        name="funny"
    ),
    Guidelines(
        guidelines="Response must be appropiate for children",
        name="child_safe"
    ),
    Guidelines(
        guidelines="Response must follow the input template structure from the request - filling in the blanks without changing the other words.",
        name="template_match",
    ),
]

評価を実行する

以下のevaluate()関数は、指定されたeval_dataでエージェントgenerate_gameを実行し、スコアラーを使用して出力を判断します。評価ログはメトリクスをアクティブなMLflowエクスペリメントに記録します。

Python
results = mlflow.genai.evaluate(
    data=eval_data,
    predict_fn=generate_game,
    scorers=scorers
)

mlflow.genai.evaluate() 結果をアクティブなMLflowエクスペリメントに記録します。結果は、上記の対話型セル出力、またはMLflowエクスペリメント UI で確認できます。エクスペリメント UI を開くには、セルの結果内のリンクをクリックするか、左側のサイドバーの 「エクスペリメント」 をクリックします。

ノートブックのセル結果からMLflow体験 UI にリンクします。

エクスペリメント UI で、 「評価」 タブをクリックします。

MLflowエクスペリメント UI の上部にある「評価」タブ。

UI で結果を確認して、アプリケーションの品質を理解し、改善のアイデアを特定します。

文章ゲームのレビュー

開発中にMLflow評価を使用すると、本番運用モニタリングの準備に役立ち、同じスコアラーを使用して本番運用トラフィックを監視できます。詳細については、GenAI の本番運用モニタリングをご覧ください。

人間からのフィードバック

上記の LLM による審査員としての評価は貴重ですが、ドメイン専門家は品質の確認、正しい回答の提供、将来の評価のガイドラインの定義に役立ちます。次のセルには、レビューアプリを使用してトレースを専門家と共有し、フィードバックを得るためのコードが表示されます。

UI を使用してこれを行うこともできます。「エクスペリメント」ページで「 ラベル付け 」タブをクリックし、左側にある 「セッション と スキーマ」 タブを使用して新しいラベルスキーマを追加し、新しいセッションを作成します。

Python
from mlflow.genai.label_schemas import create_label_schema, InputCategorical, InputText
from mlflow.genai.labeling import create_labeling_session

# Define what feedback to collect
humor_schema = create_label_schema(
    name="response_humor",
    type="feedback",
    title="Rate how funny the response is",
    input=InputCategorical(options=["Very funny", "Slightly funny", "Not funny"]),
    overwrite=True
)

# Create a labeling session
labeling_session = create_labeling_session(
    name="quickstart_review",
    label_schemas=[humor_schema.name],
)

# Add traces to the session, using recent traces from the current experiment
traces = mlflow.search_traces(
    max_results=10
)
labeling_session.add_traces(traces)

# Share with reviewers
print(f"✅ Trace sent for review!")
print(f"Share this link with reviewers: {labeling_session.url}")

専門のレビュー担当者は、レビューアプリリンクを使用して、上で定義したラベル付けスキーマに基づいて応答を評価できるようになりました。

専門家のフィードバックを収集するためのアプリUIを確認する

MLflow UI でフィードバックを表示するには、アクティブなエクスペリメントを開き、 [ラベル付け] タブをクリックします。

フィードバックをプログラムで操作するには:

フィードバックを分析するには、 mlflow.search_traces()を使用します。
アプリケーション内でユーザーフィードバックを記録するには、 mlflow.log_feedback()を使用します。

サンプルノートブック

次のノートブックにはこのページのすべてのコードが含まれています。

GenAI 向け MLflow 3 クイックスタートノートブック

Open notebook in new tab

次のステップ

このチュートリアルでは、デバッグとプロファイリング、実行LLM -as-a-judge 評価のために GenAI アプリケーションを組み込み、人間のフィードバックを収集しました。

MLflowを使用して本番運用 GenAI エージェントとアプリを構築する方法について詳しくは、以下から始めてください。

機能参照

このガイドの概念と機能の詳細については、以下を参照してください。

トレースの概念 - MLflow Tracingの基本を理解する
評価の概念 - 採点者、審査員、評価方法について学びます
レビューアプリ- 人間からのフィードバックを収集するためにレビューアプリをセットアップして構成します
MLflowデータモデル - エクスペリメント、トレース、実行を詳細に調査

環境設定​

トレース​

評価​

評価データセットを作成する​

スコアラーを使用して評価基準を定義する​

評価を実行する​

人間からのフィードバック​

サンプルノートブック​

GenAI 向け MLflow 3 クイックスタート ノートブック

次のステップ​

機能参照​