生成性AI和NetApp价值
对生成性人工智能(AI)的需求正在推动各行各业的变革、从而增强了业务创造力和产品创新。
作者:Sathish Thyagarajan、NetApp
摘要
许多企业都在使用生成型AI来构建新的产品功能、提高工程效率、并对AI驱动的应用程序进行原型设计、以提供更好的结果和消费者体验。生成型AI (例如生成型预训练变形本(GPT))使用神经网络创建新内容、包括文本、音频和视频。鉴于大型语言模型(LLM)所涉及的极大规模数据集、构建强大的AI基础架构至关重要、该基础架构应利用内部部署、混合云和多云部署选项的极具吸引力的数据存储功能、并降低与数据移动性相关的风险、 在企业设计AI解决方案之前、先对数据进行保护和监管。本白皮书将介绍这些注意事项以及相应的NetApp®AI功能,这些功能可以在人工智能数据管道之间实现无缝数据管理和数据移动,以用于训练、再培训、微调和推理生成的人工智能模型。
内容提要
最近、在2022年11月推出GPT-3的衍生产品ChatGPT之后、用于根据用户提示生成文本、代码、图像甚至治疗性蛋白质的新AI工具获得了显著声誉。这表示用户可以使用自然语言提出请求、AI将使用经过训练的现有数据算法解释和生成文本、例如反映用户请求的新闻文章或产品说明、或者生成代码、音乐、语音、视觉效果和3D资产。因此、稳定扩散、幻想、快速工程和价值协调等短语在AI系统设计中迅速涌现。这些自我监督或半监督机器学习(ML)模式正在通过云服务提供商和其他AI公司供应商以预先训练的基础模式(FM)的形式广泛提供、这些模式正被各行各业的各种企业机构采用、用于执行各种下游NLF (自然语言处理)任务。正如McKinsey等研究分析公司所说:“生成性AI对生产率的影响可以为全球经济增加数以亿计的价值。” 虽然企业正在将AI重新视为人类的思想合作伙伴、而FMS正在同时扩展到企业和机构可以利用生成型AI实现的目标、但管理海量数据的机会仍将继续增长。本文档介绍了有关生成AI的介绍信息、以及与可为NetApp客户带来价值的NetApp功能相关的设计概念、包括内部环境以及混合或多云环境。
那么、客户在AI环境中使用NetApp有何意义? NetApp可帮助企业应对数据和云快速增长、多云管理以及采用AI等下一代技术所带来的复杂性。NetApp已将各种功能整合到智能数据管理软件和存储基础架构中、这些功能与针对AI工作负载优化的高性能实现了完美平衡。像LMs这样的生成性AI解决方案需要多次将其源数据集从存储读取并处理到内存中、以增强智能。NetApp在跨边缘到核心再到云生态系统的数据移动性、数据监管和数据安全技术方面一直处于领先地位、为企业客户构建大规模AI解决方案提供服务。NetApp与强大的合作伙伴网络一直在帮助首席数据官、AI工程师、企业架构师和数据科学家设计自由流动的数据管道、用于数据准备、数据保护、 以及AI模型训练和推理的战略数据管理职责、优化AI/ML生命周期的性能和可扩展性。NetApp数据技术和功能,例如用于深度学习数据管道的NetApp®ONTAP AI®、用于在存储端点之间无缝高效地传输数据的NetApp®SnapMirror® NetApp®FlexCache®可在数据流从批量转换到实时时进行实时渲染,并且数据工程会及时进行,从而为部署实时生成AI模型带来价值。随着各种类型的企业纷纷采用新的AI工具、他们面临着从边缘到数据中心再到云端的数据挑战、这些挑战需要可扩展、负责任且可解释的AI解决方案。作为混合云和多云数据管理领域的权威企业、NetApp致力于构建合作伙伴网络和联合解决方案、帮助构建数据管道和数据湖的方方面面、以进行生成性AI模型训练(训练前)、微调、基于上下文的推理以及对LLM的模型衰退监控。
什么是生成型AI?
生成性AI正在改变我们创建内容、生成新设计概念以及探索新组成的方式。它展示了生成式抗压网络(GAN)、多种形式的自动编码器(VAE)和生成式预训练变形器(GPT)等神经网络框架、这些框架可以生成文本、代码、图像、音频、视频、 和合成数据。OpenAI的Chat-GPT、Google的Bard、hubling face’s bollama和Meta的llama等基于变压器的模型已成为支持大型语言模型许多进步的基础技术。同样、OpenAI的Dall-E、Meta的CM3leon和Google的Imagen也是文本到图像传播模型的示例、这些模型为客户提供前所未有的光刻度、让客户可以从头开始创建新的复杂图像、或者通过数据集扩充和文本到图像合成来编辑现有图像、从而生成高质量的上下文感知图像。数字艺术家开始将Nerf (神经光场)等渲染技术与生成性AI相结合、将静态2D图像转换为沉浸式3D场景。一般来说、LLM的大致特征是四个参数:(1)模型大小(通常以数十亿个参数为单位);(2)训练数据集大小;(3)训练成本;(4)训练后的模型性能。此外、LMs还主要分为三种变压器架构。(i)仅编码器型号。例如BERT (Google、2018年);(ii)编码器-解码器、例如BART (Meta、2020年)和(iii)仅解码器型号。例如:llama (Meta、2023)、Palm/E (Google、2023)。根据业务要求、无论公司选择哪种架构、训练数据集中的模型参数数量(N)和令牌数量(D)通常都会确定训练(训练前)或微调LLM的基线成本。
企业用例和下游NLL任务
各行各业的企业都在发掘越来越多的AI潜力、从现有数据中提取并产生新形式的价值、用于业务运营、销售、营销和法律服务。根据IDC (International Data Corporation)在全球生成型AI用例和投资方面的市场情报、软件开发和产品设计方面的知识管理受到的影响最大、其次是为营销创建案例以及为开发人员生成代码。在医疗保健领域、临床研究组织正在医学领域开辟新天地。ProteinBERT等经过预先训练的模型采用基因本体(GGO)注释来快速设计医疗药物的蛋白质结构、这是药物发现、生物信息学和分子生物学方面的一个重要里程碑。生物技术公司已开始人类试验AI发现的生成性药物、其目的是治疗肺部成肿(IPF)等疾病、肺部成肿(IPF)是一种导致肺组织不可逆划痕的肺病。
图1:推动生成性AI的用例
在生成型AI的推动下、自动化采用率的提高也在改变许多职业工作活动的供求。如McKinsey所述、美国劳动力市场(下图)经历了快速转型、只有在考虑到AI的影响后、这种转型才可能持续下去。
来源:McKinsey & Company
存储在生成AI中的作用
LLM在很大程度上依赖于深度学习、GPU和计算。但是、当GPU缓冲区填满时、需要将数据快速写入存储。虽然某些AI模型的大小足以在内存中执行、但LLM需要高IOPS和高吞吐量存储才能快速访问大型数据集、尤其是在涉及数十亿个令牌或数百万个图像的情况下。对于LLM的典型GPU内存需求、使用10亿个参数训练模型所需的内存最高可达80 GB @32位全精度。在这种情况下、Meta的llama 2 (一个规模从70亿到700亿参数的LLM系列)可能需要70x80、大约5600 GB或5.6 TB GPU RAM。此外、所需的内存量与要生成的最大令牌数成正比。例如、如果要生成最多512个令牌(约380个字)的输出、则需要 "512 MB"。这可能看似无关紧要、但是、如果您要运行较大的批次、它就会开始累加。因此、组织在内存中进行训练或微调的成本非常高、从而使存储成为生成性AI的基石。
三种主要的LLMs方法
对于大多数企业而言、根据当前趋势、部署LLM的方法可以精简为3种基本方案。如最近的中所述 "《哈佛商业评论》" 文章:(1)从头开始培训(预培训) LLM—成本高昂、需要专业的AI/ML技能;(2)利用企业数据微调基础模型—复杂但可行;(3)使用检索增强生成(RAG)查询包含公司数据的文档存储库、API和矢量数据库。其中每一种方法都在其实施过程中的工作量、迭代速度、成本效益和模型准确性之间进行权衡、以解决不同类型的问题(下图)。
图3:问题类型
基础模型
基础模型(FM)也称为基础模型(Base Model)、它是一种大型AI模型(LLM)、使用大规模自我监督、针对大量下游NLP"任务进行训练。由于训练数据不是由人类标记的、因此模型会出现、而不是显式编码。这意味着模型可以生成自己的故事或叙述、而无需明确编程。因此、FM的一个重要特征是同质化、这意味着在许多领域中使用相同的方法。但是、借助个性化和微调技术、如今出现的产品中集成的FMS不仅能够很好地生成文本、文本到图像和文本到代码、还可以解释特定域的任务或调试代码。例如、FMS (如OpenAI的Codex"或Meta的Code Llama)可以根据编程任务的自然语言描述以多种编程语言生成代码。这些模型精通十几种编程语言、包括Python、C#、JavaScript、Perl、Ruby、 和SQL。他们了解用户的意图、并生成特定的代码来完成对软件开发、代码优化和编程任务自动化有用的预期任务。
微调、特定域和重新培训
在数据准备和数据预处理之后、LLM部署的一个常见做法是、选择一个经过预先训练的模型、该模型已在庞大且多样化的数据集中进行过训练。在微调环境中、这可以是一个开源大型语言模型、例如 "元数据的Llama 2." 经过700亿个参数和2万亿个令牌的培训。选择预先训练的模型后、下一步是根据域特定的数据对其进行微调。这包括调整模型的参数并对其进行新数据训练、以适应特定的领域和任务。例如、作为一家专有LLM公司的布隆伯格GPT、就为金融行业提供的各种金融数据进行了培训。为特定任务设计和训练的域特定模型在其范围内的准确性和性能通常较高、但在其他任务或域之间的可转移性较低。当业务环境和数据在一段时间内发生变化时、与测试期间的性能相比、FM的预测准确性可能开始下降。此时、重新培训或微调模型变得至关重要。传统人工智能/机器学习中的模型再训练是指使用新数据更新已部署的机器学习模型、通常执行此操作是为了消除出现的两种类型的移动。(1)概念漂移—当输入变量和目标变量之间的链接随时间发生变化时、由于我们要预测的内容的问题描述发生变化、因此模型可能会产生不准确的预测。(2)数据漂移—当输入数据的特征发生变化时、例如客户习惯或行为随时间推移而发生变化、因此模型无法响应此类变化。以类似的方式、重新培训适用场景FMS/LLM、但是成本可能会很高(以百万美元为单位)、因此大多数企业可能不会考虑这一点。它正在积极研究、仍在LLMOps领域出现。因此、当模型在微调FMS中发生退换时、企业可能会选择使用较新的数据集再次进行微调(成本低得多)。从成本角度来看、下面列出了Azazy-OpenAI Services的模型价格表示例。对于每个任务类别、客户可以微调和评估特定数据集的模型。
来源:Microsoft Azure
提示工程和推理
提示工程是指在不更新模型权重的情况下、如何与LLM进行通信以执行所需任务的有效方法。与AI模型训练和微调一样重要的是NLG应用程序、推理也同样重要、因为经过训练的模型会响应用户提示。推理的系统要求通常更多地涉及AI存储系统的读取性能、该存储系统会将数据从LLM馈送到GPU、因为它需要能够应用数十亿个已存储的模型参数来生成最佳响应。
LLMOps、Model Monitoring和Mittorstores
与传统机器学习操作(MLOps)一样、大型语言模型操作(LLMOps)也需要数据科学家和DevOps工程师协作、利用工具和最佳实践在生产环境中管理LLM。但是、LLM的工作流和技术堆栈可能会在某些方面有所不同。例如、使用LangChin字符串等框架构建的LLM管道将对外部嵌入端点(如矢量存储库或向量数据库)的多个LLM API调用组合在一起。将嵌入端点和矢量存储用于下游连接器(如向量数据库)代表了数据存储和访问方式的重大发展。与从零开始开发的传统ML模型不同、LMs通常依赖于转移学习、因为这些模型从FMS开始、FMS会根据新数据进行微调、以提高更具体领域的性能。因此、LLMOps提供风险管理和模型核降监测功能至关重要。
在生成型AI时代的风险与道德
"ChatGPT–它很流畅、但仍不实用。"–MIT Tech Review。垃圾输入-垃圾输出一直是计算领域的难题。与生成型AI的唯一区别在于、它擅长使垃圾变得高度可信、从而导致结果不准确。LLM倾向于根据自己的叙述来创造事实。因此、如果公司将生成型AI视为使用AI等效产品降低成本的绝佳机会、则需要高效检测深度假象、减少偏见并降低风险、以保持系统的诚信和道德。在设计负责任且可解释的生成型AI模型时、采用支持数据移动性、数据质量、数据监管和数据保护的强大AI基础架构的自由流动数据管道是一项杰出的功能。
客户场景和NetApp
图3:机器学习/大型语言模型工作流
*我们是在训练还是微调?*是(a)从头开始训练LLM模型、微调预先训练的FM、还是使用RAG从基础模型以外的文档库中检索数据并增加提示、 (b)无论是利用开源LMs (例如Llama 2)还是专有FMS (例如ChatGPT、Bard、AWS Brock)、都是企业的一项战略决策。每种方法都会在成本效益、数据惯性、操作、模型准确性和LLM管理之间进行折让。
作为一家公司、NetApp在其内部工作文化以及产品设计和工程工作方法中都采用AI。例如、NetApp的自主勒索软件保护功能是使用AI和机器学习构建的。它可以及早检测文件系统异常情况、帮助您在威胁影响操作之前识别这些威胁。其次、NetApp在销售和库存预测以及聊天机器人等业务运营中使用预测性AI、在呼叫中心产品支持服务、技术规格、保修、服务手册等方面为客户提供帮助。第三、NetApp通过为客户提供服务的产品和解决方案为AI数据管道和ML/LLM工作流带来客户价值构建预测性AI解决方案、例如需求预测、医学成像、情感分析、 和生成性AI解决方案(如用于制造业图像异常检测的GANS),以及银行和金融服务中的反洗钱和欺诈检测,均采用NetApp®ONTAP AI®、NetApp®SnapMirror®和NetApp®FlexCache®等NetApp产品和功能。
NetApp功能
在聊天机器人、代码生成、图像生成或基因组模型表达等生成型AI应用程序中移动和管理数据可以跨越边缘、私有数据中心和混合多云生态系统。例如、通过ChatGPT等经过预先训练的模型的API公开的最终用户应用程序、帮助乘客将机票升级到商务舱的实时人工智能机器人无法自行完成此任务、因为乘客信息不会在互联网上公开。API要求从航空公司访问乘客的个人信息和机票信息、这些信息可能存在于混合云或多云生态系统中。类似的情形可能适用于科学家通过最终用户应用程序共享药物的一种药物和患者数据、该应用程序使用LLM在涉及一对多生物医学研究机构的药物发现过程中完成临床试验。传递给FMS或LLM的敏感数据可能包括:可识别身份信息、财务信息、运行状况信息、生物识别数据、位置数据、 通信数据、在线行为和法律信息。在这种实时渲染、快速执行和边缘推理事件中、数据会通过开源或专有LLM模型从最终用户应用程序移动到存储端点、然后移动到内部或公共云平台上的数据中心。在所有这类场景中、数据移动性和数据保护对于涉及LLM的AI操作至关重要、因为这类操作依赖于大型训练数据集和此类数据的移动。
图4:生成型AI - LLM数据管道
NetApp的存储基础架构、数据和云服务产品组合由智能数据管理软件提供支持。
数据准备:LLM技术堆栈的第一个支柱与旧的传统ML堆栈基本没有任何不同。AI管道中的数据预处理对于在训练或微调之前对数据进行规范化和清理至关重要。此步骤包括用于以Amazon S3层形式或内部存储系统(例如文件存储或对象存储(例如NetApp StorageGRID)中的任何位置导入数据的连接器。
*NetApp NetApp®ONTAP *是NetApp在数据中心和云中的关键存储解决方案的基础技术。ONTAP包括各种数据管理和保护特性和功能、包括针对网络攻击的自动勒索软件保护、内置数据传输特性以及适用于各种架构的存储效率功能、从NAS、SAN、对象、 LLM部署的软件定义的存储(SDS)情况。
用于深度学习模型训练的NetApp®ONTAP AI®。NetApp®ONTAP®支持使用基于RDMA的NFS的NVIDIA GPU Direct Storage™,适用于具有ONTAP存储集群和NVIDIA DGX计算节点的NetApp客户。它可以经济高效地将源数据集从存储读取并处理多次到内存中、以增强智能、从而使组织能够通过培训、微调和扩展对LLM的访问。
-
NetApp®FlexCache®*是一种远程缓存功能,它可以简化文件分发并仅缓存正在读取的数据。这对于LLM培训、再培训和微调非常有用、可以为具有实时渲染和LLM推理等业务需求的客户带来价值。
-
NetApp®SnapMX*是一种ONTAP功能,可在任意两个ONTAP系统之间复制卷快照。此功能可以以最佳方式将边缘数据传输到内部数据中心或云。如果客户希望在包含企业数据的RAG中开发生成性AI、则可以使用SnapMirror在内部云和超大型云之间安全高效地移动数据。它可以仅高效传输更改、节省带宽并加快复制速度、从而在FMS或LLM的训练、重新训练和微调操作期间提供基本的数据移动功能。
*ONTAP®SnapLock为基于NetApp的存储系统提供了不可变的磁盘功能,用于数据集版本控制。微核架构旨在通过FPolicy™Zero Trust引擎保护客户数据。当攻击者以特别消耗资源的方式与LLM交互时、NetApp可通过抵御拒绝服务(DoS)攻击来确保客户数据可用。
-
NetApp®云数据感知*有助于识别、映射和分类企业数据集中的个人信息、制定策略、满足内部或云中的隐私要求、帮助改进安全防护并遵守法规。
*由NetApp Data Sense提供支持的Cloud®BlueXP™*分类。客户可以自动扫描、分析、分类和处理数据资产中的数据、检测安全风险、优化存储并加快云部署速度。它通过统一控制平台将存储和数据服务结合在一起、客户可以使用GPU实例进行计算、并使用混合多云环境进行冷存储分层以及归档和备份。
NetApp文件-对象双重性*。NetApp ONTAP支持对NFS和S3进行双协议访问。借助此解决方案、客户可以通过NetApp Cloud Volumes ONTAP的S3存储分段从Amazon AWS SageMaker笔记本电脑访问NFS数据。这为需要轻松访问异构数据源并能够共享NFS和S3数据的客户提供了灵活性。 例如、在SageMaker上对FMS进行微调、例如可以访问文件对象分段的Meta的Llama 2文本生成模型。
-
NetApp®Cloud Sync *服务提供了一种简单安全的方法,可以将数据迁移到云端或内部环境中的任何目标。Cloud Sync可在内部或云存储、NAS和对象存储之间无缝传输和同步数据。
*NetApp XCP*是一款客户端软件,支持快速、可靠地将任何数据迁移到NetApp和NetApp数据迁移到NetApp。XCP还可以高效地将批量数据从Hadoop HDFS文件系统移动到ONTAP NFS、S3或StorageGRID中、而XCP文件分析可提供文件系统可见性。
-
NetApp®DataOps Toolkit*是一个Python库,数据科学家、开发运营人员和数据工程师可以利用它轻松地执行各种数据管理任务,例如近乎瞬时地配置、克隆或快照数据卷或JupyterLab工作空间,这些工作空间由高性能横向扩展NetApp存储提供支持。
NetApp的产品安全性。LLM可能会无意中在其响应中泄露机密数据、因此对于研究与利用LLM的AI应用程序相关的漏洞的ISO来说、这是一个顾虑。正如开放全球应用程序安全项目(Open Worldwide Application Security Project、Open Worldwide Application Security Project)所述、数据中毒、数据泄露、拒绝服务和在LLM中迅速注入等安全问题可能会因数据暴露给未经授权的访问服务攻击者而影响企业。数据存储要求应包括结构化、半结构化和非结构化数据的完整性检查和不可变更的快照。NetApp快照和SnapLock用于数据集版本控制。它提供了严格的基于角色的访问控制(Role-Based Access Control、RBAC)以及安全协议和行业标准加密、用于保护空闲和传输中的数据。Cloud Insights和Cloud Data Sense相结合、可帮助您预先确定威胁源并确定要还原的数据的优先级。
*采用DGX BasePOD*的ONTAP AI
采用NVIDIA DGX BasePOD的NetApp®ONTAP®AI参考架构是一种适用于机器学习(ML)和人工智能(AI)工作负载的可扩展架构。在LLM的关键训练阶段、通常会定期将数据从数据存储复制到训练集群中。此阶段使用的服务器使用GPU来并行处理各种数据、从而产生巨大的数据需求。满足原始I/O带宽需求对于保持高GPU利用率至关重要。
*NVIDIA AI企业版的ONTAP AI
NVIDIA AI Enterprise是一款端到端云原生AI和数据分析软件套件、经过NVIDIA优化、认证和支持、可在采用NVIDIA认证系统的VMware vSphere上运行。此软件有助于在现代混合云环境中轻松快速地部署、管理和扩展AI工作负载。由NetApp和VMware提供支持的NVIDIA AI Enterprise通过一个简单熟悉的软件包提供企业级AI工作负载和数据管理。
1P云平台
完全托管的云存储产品以Azure NetApp Files (ANF)的形式在Microsoft Azure上提供、以Amazon FSx for NetApp ONTAP (FSxN)的形式在AWS上提供、以Google Cloud NetApp Volumes (GNCV)的形式在Google上提供。1P是一款高性能托管文件系统、支持客户在公有云中运行高可用性AI工作负载、并提高数据安全性、以便使用AWS SageMaker、Azaze-OpenAI Services和Google VertexAI等云原生ML平台微调LLM/FMS。
NetApp合作伙伴解决方案套件
除了核心数据产品、技术和功能之外、NetApp还与强大的AI合作伙伴网络密切合作、为客户带来附加价值。
*人工智能系统中的NVIDIA防护装置*是确保以合乎道德和负责任的方式使用人工智能技术的保障措施。AI开发人员可以选择定义基于LLM的应用程序在特定主题上的行为、并防止他们参与有关不需要的主题的讨论。护栏是一个开源工具包、能够无缝安全地将LLM连接到其他服务、从而构建可靠、安全的LLM对话系统。
*Domino Data Lab*提供多用途企业级工具,用于快速、安全、经济地构建生成型AI并将其产品化,无论您处于AI之旅的哪个阶段。借助Domino的企业MLOps平台、数据科学家可以使用首选工具及其所有数据、随时随地轻松训练和部署模型、并经济高效地管理风险-所有这些都可以从一个控制中心完成。
Modzy for Edge AI。NetApp®和Modzy携手合作,为任何类型的数据(包括图像、音频、文本和表格)提供大规模AI。Modzy是一个MLOps平台、用于部署、集成和运行AI模型、为数据科学家提供了模型监控、漂移检测和可解释性的功能、并集成了解决方案以实现无缝的LLM推定。
*Run:AI*和NetApp携手合作、展示NetApp ONTAP AI解决方案与Run:AI集群管理平台的独特功能、以简化AI工作负载的流程编排。它可以自动拆分和连接GPU资源、利用适用于Spark、Ray、dask和Rapids的内置集成框架将数据处理管道扩展到数百台计算机。
结论
只有在模型基于大量高质量数据进行训练后、生成型AI才能产生有效结果。虽然LMs已经取得了令人瞩目的里程碑式成就、但必须认识到其与数据移动性和数据质量相关的局限性、设计挑战和风险。LMs依赖于来自异构数据源的大型且不同的训练数据集。模型产生的不准确结果或有偏见的结果可能会使企业和消费者处于危险之中。这些风险可能与LLM因数据质量、数据安全性和数据移动性相关的数据管理挑战而面临的限制相对应。NetApp可帮助企业应对因数据快速增长、数据移动性、多云管理和采用AI而带来的复杂性。大规模AI基础架构和高效的数据管理对于定义生成型AI等AI应用程序的成功至关重要。关键在于、客户必须涵盖所有部署情形、同时不影响根据企业需求进行扩展的能力、同时保持成本效益、数据监管和合乎道德的AI实践控制权。NetApp一直致力于帮助客户简化和加快AI部署。