Skip to main content
NetApp artificial intelligence solutions
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Rastreabilidade de conjunto de dados para modelo com NetApp e MLflow

O "Kit de ferramentas NetApp DataOps para Kubernetes" pode ser usado em conjunto com os recursos de rastreamento de experimentos do MLflow para implementar a rastreabilidade do conjunto de dados para o modelo ou do espaço de trabalho para o modelo.

Para implementar a rastreabilidade de conjunto de dados para modelo ou de espaço de trabalho para modelo, basta criar um instantâneo do seu conjunto de dados ou volume de espaço de trabalho usando o DataOps Toolkit como parte da sua execução de treinamento, conforme mostrado no seguinte trecho de código de exemplo. Este código salvará o nome do volume de dados e o nome do instantâneo como tags associadas à execução de treinamento específica que você está registrando no seu servidor de rastreamento de experimentos do MLflow.

...
from netapp_dataops.k8s import create_volume_snapshot

with mlflow.start_run() :
    ...

    namespace = "my_namespace" # Kubernetes namespace in which dataset volume PVC resides
    dataset_volume_name = "project1" # Name of PVC corresponding to dataset volume
    snapshot_name = "run1" # Name to assign to your new snapshot

    # Create snapshot
    create_volume_snapshot(
        namespace=namespace,
        pvc_name=dataset_volume_name,
        snapshot_name=snapshot_name,
        printOutput=True
    )

    # Log data volume name and snapshot name as "tags"
    # associated with this training run in mlflow.
    mlflow.set_tag("data_volume_name", dataset_volume_name)
    mlflow.set_tag("snapshot_name", snapshot_name)

    ...