在NetApp Data Classification中创建自定义分类
NetApp Data Classification允许您创建自定义类别或个人标识符,以识别特定于您组织监管和合规要求的数据。
数据分类支持两种类型的自定义分类器:类别和个人标识符。自定义类别是根据您上传的一组文件创建的,数据分类功能会根据这些文件创建一个 AI 模型,以识别您组织中的类似数据(例如,一家健康研究公司可能会创建一个临床分析类别)。使用关键字列表或正则表达式 (regex) 创建自定义个人标识符,以识别贵组织特有的、可能构成合规风险的信息。
所有自定义分类都可以在自定义分类控制面板中找到。
创建自定义个人标识符
数据分类功能允许您使用上下文关键字或正则表达式创建自定义个人标识符,以识别贵组织特有的数据。
如果您使用关键词列表创建个人标识符,则该列表必须满足以下要求:
-
关键词输入不区分大小写。
-
关键词必须至少包含三个字符。长度少于三个字符的单词将被忽略。
-
重复的词语只会添加一次。
-
关键词总数不能超过 50 万个字符。列表中必须至少包含一个关键词。
-
选择自定义分类选项卡。
-
选择+ 新建分类器以创建自定义分类器。
-
请选择*个人标识符*。(可选)选择“屏蔽结果”以屏蔽检测到的个人数据。
-
选择下一步。

-
要添加带关键词的分类器,请选择关键词。请输入关键词列表,每个关键词占一行。请确保关键词符合要求。

要将分类器添加为正则表达式,请选择正则表达式,然后添加一个模式来检测数据的特定信息。选择验证以确认您输入的语法正确。

-
(可选)输入一个应该与正则表达式模式匹配的示例字符串,然后选择测试进行检查。
-
(可选)添加邻近词。如果添加邻近词,数据分类仅在邻近词与匹配字符串相邻时才标记正则表达式模式。
-
-
选择下一步。
-
输入分类器名称和描述,以便在仪表板中标识自定义类别。
-
选择保存以创建自定义个人标识符。
创建自定义个人标识符后,其结果将在下次计划扫描中捕获。为了更快地获取结果,请执行按需扫描。要查看结果,请参阅 生成合规性报告。
创建自定义类别
通过自定义类别,您可以对特定于您组织的数据进行分类。自定义类别是根据您上传的文本文件创建的,数据分类功能会根据这些文件创建一个人工智能模型,以识别其他文件中的类似信息。
-
训练数据集必须至少包含 25 个文件。最大文件数为 1,000。
-
所有文件必须直接位于您提供的文件路径中。
-
所有文件必须大于 100 字节。
-
数据分类训练数据必须是以下文件类型之一:CSV、DOCX、DOC、GZ、JSON、PDF、PPTX、TXT、RTT、XLS 或 XLSX。您可以上传所有支持的文件类型的组合。
-
在NetApp Data Classification中,选择“自定义分类”。
-
选择 + 新建分类器。
-
选择“自定义类别”作为分类器类型,然后下一步。
-
使用一系列基于文本的文件来定义自定义类别的逻辑。请提供*工作地址*的IP地址,然后从下拉菜单中选择*音量*。
输入包含训练数据的目录的目录路径。
-
选择“加载文件”进行数据分类,以执行文件检查。您可以查看文件摘要,其中列出了文件名、大小、类型和备注(如果该文件被认为适合用于培训)。

-
要更改文件路径或重新上传文件,请选择更改路径,然后输入数据并再次加载文件。
-
-
当您对上传的文件满意后,请选择下一步。
-
输入分类器名称和描述,以便在仪表板中标识自定义类别。
-
选择保存以创建自定义类别。
创建自定义类别后,其结果将在下次计划扫描中捕获。为了更快地获取结果,请手动启动扫描。
编辑自定义分类器
创建个人标识符后,您可以修改其逻辑。您无法更改个人标识符的类型或逻辑类型;例如,您无法将自定义类别更改为自定义个人标识符。您也不能将基于关键字的自定义标识符更改为基于正则表达式的自定义标识符。
-
在NetApp Data Classification中,选择“自定义分类”。
-
确定要删除的分类器,然后选择操作菜单
…在它那一行的末尾。 -
选择编辑逻辑。
-
如果要修改关键词,请添加、删除或编辑相应的关键词。如果要修改正则表达式,请输入新的正则表达式并进行验证。(可选)添加邻近关键词。
-
选择“保存”以应用更改。
删除自定义分类器
-
在NetApp Data Classification中,选择“自定义分类”。
-
确定要删除的分类器,然后选择操作菜单
…在它那一行的末尾。 -
选择删除分类器。