Skip to main content
NetApp Solutions
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

设计注意事项

贡献者

本节介绍此解决方案的不同组件的设计注意事项。

网络和计算设计

根据数据安全性的限制,所有数据都必须保留在客户的基础架构或安全环境中。

图中显示了输入/输出对话框或表示已写入内容

存储设计

NetApp DataOps 工具包是用于管理存储系统的主要服务。DataOps 工具包是一个 Python 库,可使开发人员,数据科学家,开发运营工程师和数据工程师轻松执行各种数据管理任务,例如近乎即时地配置新的数据卷或 JupyterLab 工作空间,近乎即时地克隆数据卷或 JupyterLab 工作空间, 以及接近瞬时的数据卷快照或 JupyterLab 工作空间快照,以实现可追溯性或基线化。此 Python 库可以用作命令行实用程序或函数库,可以导入到任何 Python 程序或 Jupyter Notebook 中。

RIVA 最佳实践

NVIDIA 提供了多种常规功能 "最佳数据实践" 要使用 Riva ,请执行以下操作:

  • * 如果可能,请使用无损音频格式。 * 使用像 mp3 这样的有损编解码器可能会降低质量。

  • * 扩充训练数据。 * 在音频训练数据中增加背景噪声最初会降低准确性,但同时提高稳定性。

  • * 如果使用的是擦文本,请限制词汇大小。 * 许多在线源都包含拼写错误或辅助发音以及不常见的词。删除这些内容可以改进语言模式。

  • * 如果可能,请使用最小采样速率 16kH* 。但是,请尝试不要重新采样,因为这样做会降低音频质量。

除了这些最佳实践之外,客户还必须优先收集具有代表性的样本数据集,并为管道的每个步骤提供准确的标签。换言之,样本数据集应按比例反映目标数据集所示的指定特征。同样,数据集标注器也有责任平衡标记的准确性和速度,以便最大限度地提高数据的质量和数量。例如,此支持中心解决方案需要音频文件,带标签的文本和情感标签。此解决方案的顺序性意味着从管道开始的错误会一直传播到管道的末尾如果音频文件质量较差,则文本抄录和情感标签也会是。

此错误传播方式与此类似,适用场景是对接受过此数据培训的模型进行的。如果情感预测 100% 准确,但语音到文本模式表现不佳,则最终管道将受初始音频到文本抄录的限制。开发人员必须单独考虑每个模型的性能,并将其作为更大管道的组成部分。在这种特定情况下,最终目标是开发一个能够准确预测情绪的渠道。因此,评估管道的总体指标是感受的准确性,而语音到文本的文字记录直接影响到这一点。

图中显示了输入/输出对话框或表示已写入内容

NetApp DataOps 工具包利用其近乎瞬时的数据克隆技术补充了数据质量检查管道。必须对每个标记的文件进行评估,并将其与现有标记的文件进行比较。在各种数据存储系统之间分布这些质量检查可确保快速高效地执行这些检查。