简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

使用NetApp和 MLflow 实现数据集到模型的可追溯性

08/18/2025 贡献者

这 "适用于 Kubernetes 的NetApp DataOps 工具包"可以与 MLflow 的实验跟踪功能结合使用，以实现数据集到模型或工作区到模型的可追溯性。

要实现数据集到模型或工作区到模型的可追溯性，只需在训练运行过程中使用 DataOps Toolkit 创建数据集或工作区卷的快照，如以下示例代码片段所示。此代码将数据卷名称和快照名称保存为与您记录到 MLflow 实验跟踪服务器的特定训练运行相关的标签。

...
from netapp_dataops.k8s import create_volume_snapshot

with mlflow.start_run() :
    ...

    namespace = "my_namespace" # Kubernetes namespace in which dataset volume PVC resides
    dataset_volume_name = "project1" # Name of PVC corresponding to dataset volume
    snapshot_name = "run1" # Name to assign to your new snapshot

    # Create snapshot
    create_volume_snapshot(
        namespace=namespace,
        pvc_name=dataset_volume_name,
        snapshot_name=snapshot_name,
        printOutput=True
    )

    # Log data volume name and snapshot name as "tags"
    # associated with this training run in mlflow.
    mlflow.set_tag("data_volume_name", dataset_volume_name)
    mlflow.set_tag("snapshot_name", snapshot_name)

    ...

使用NetApp和 MLflow 实现数据集到模型的可追溯性

Creating your file...