简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。
使用NetApp和 MLflow 实现数据集到模型的可追溯性
这 "适用于 Kubernetes 的NetApp DataOps 工具包"可以与 MLflow 的实验跟踪功能结合使用,以实现数据集到模型或工作区到模型的可追溯性。
要实现数据集到模型或工作区到模型的可追溯性,只需在训练运行过程中使用 DataOps Toolkit 创建数据集或工作区卷的快照,如以下示例代码片段所示。此代码将数据卷名称和快照名称保存为与您记录到 MLflow 实验跟踪服务器的特定训练运行相关的标签。
...
from netapp_dataops.k8s import create_volume_snapshot
with mlflow.start_run() :
...
namespace = "my_namespace" # Kubernetes namespace in which dataset volume PVC resides
dataset_volume_name = "project1" # Name of PVC corresponding to dataset volume
snapshot_name = "run1" # Name to assign to your new snapshot
# Create snapshot
create_volume_snapshot(
namespace=namespace,
pvc_name=dataset_volume_name,
snapshot_name=snapshot_name,
printOutput=True
)
# Log data volume name and snapshot name as "tags"
# associated with this training run in mlflow.
mlflow.set_tag("data_volume_name", dataset_volume_name)
mlflow.set_tag("snapshot_name", snapshot_name)
...