如今,人工智能在商业领域无处不在,从装配线上的自动决策机器人,到客户服务的聊天机器人,再到能源领域的动态峰值电价优化。新闻中充斥着关于人工智能如何影响各行各业工作和互动方式的报道。
然而,最近备受关注的是更具体的生成式人工智能 (Generative AI),这项技术是 ChatGPT、DALL-E 和 OpenAI 的 Sora 等热门内容、图像和视频创作应用的基础。生成式人工智能有时也被称为 GenAI,它比当今支持企业的其他人工智能解决方案更有可能显著地改变业务——但前提是企业能够提供合适的数据存储,以满足该技术所需的容量和性能。
什么是生成式人工智能?
简而言之,生成式人工智能 (Generative AI) 是指能够生成全新内容的人工智能,无论是聊天机器人的回复、产品设计、广告宣传资料、图片还是视频片段。虽然人工智能导致了伦理道德上模棱两可的深度伪造,但它也可以用来自动化书面回复或内容,例如简历或在线个人资料;推荐创新药物化合物;优化电子芯片设计;以特定风格创作音乐或小说;提高电影配音的准确性;以任何所需风格创作新的艺术作品;根据特定参数创建建筑设计等等。
生成式人工智能与其他类型的人工智能不同,它依赖于以下组件:
大型语言模型(LLM)
LLM 是一个处理、总结和生成文本的程序。它基于海量数据集(可能包含数万亿个参数)进行训练,能够学习理解文本和上下文。LLM 在生成式 AI 模型大幅提升内容创作能力方面发挥了关键作用。例如,它们能够将文本转换为图像或视频,并自动为图像添加字幕。
生成对抗网络(GAN)
GAN 由两个神经网络组成,它们不断相互竞争,以识别明显虚假的输出。其中一个网络被视为生成器,另一个网络被视为鉴别器。生成器被编程为创建看似正确的虚假或不准确的输出,而鉴别器则负责识别哪些输出是虚假的。通过这个无需人工监督的过程,生成器在创建逼真内容方面会越来越好,而鉴别器在检测逼真内容方面也会越来越好。随着时间的推移,生成的内容会变得越来越逼真,直到鉴别器无法再检测到不准确的内容。
变形金刚
这种类型的神经网络使大型训练模型能够解析海量数据,而无需事先进行标记。这意味着人工智能算法可以处理数百万甚至数十亿个基于文本的页面,从而为模型提供更深入的“知识”。Transformer 使模型能够识别和理解单词之间的联系,例如,在一段内容中理解书中各个句子之间的上下文。模型还可以感知特定蛋白质或化学物质、代码行甚至 DNA 标记之间的联系和上下文。
传统人工智能通常遵循预设的步骤来解析数据并得出结果,而生成式人工智能则不同,它通常允许用户输入提示或查询即可开始生成内容。例如,您可以要求应用程序撰写一篇关于引发第二次世界大战事件的短文;您可以要求应用程序提供描绘十八世纪澳大利亚日常生活的原创艺术作品;或者,您可以用文字描述一个场景,并在逼真的视频中观看它如何栩栩如生地呈现。生成式人工智能旨在创造新内容,而非基于规则和预设结果完成任务。
GenAI 的工作原理以及数据存储的重要性
任何类型的人工智能通常都涉及海量数据,而生成式人工智能所需的数据量可能更大。包括 GenAI 在内的人工智能项目分为两个阶段,每个阶段的研究人员都必须管理和处理海量数据集。
训练阶段
为了训练生成式人工智能算法,研究人员需要输入海量数据。这些数据包括在线网页内容、书籍、视频、图片、报告、社交媒体内容等等。人工智能平台必须能够存储这些数据。人工智能算法会分析这些内容集合,并识别其中的联系、语境、模式等等。它会围绕这些模式和联系创建数学模型,并随着数据量的增加不断完善这些模型。法学硕士(LLM)会反复钻研他们的数据集,以加深对模式和含义的理解和认识。
AI 训练产生的工作负载巨大而复杂。它们需要同时对存储进行超高性能的读写操作。支持这些工作负载的硬件和软件必须能够满足其性能要求。
推理阶段
GenAI 算法训练完成后,用户就可以进行查询并请求内容输出。这些任务需要高性能的读取能力,因为 AI 系统必须将查询应用于存储中的数十亿甚至数万亿个参数,才能在几秒钟内创建最佳响应。此阶段的性质也意味着大多数系统必须具有并行数据路径才能达到用户期望的速度和性能。
生成式人工智能需要考虑的数据存储因素
为了满足生成式人工智能 (Generation AI) 的超大存储需求,企业不得不重新思考其数据存储和管理实践。许多企业选择采用混合数据存储方法,并充分利用云存储和本地存储的优势来支持 AI 项目。
人工智能友好型数据存储通常包括以下内容:
-
-
- 大容量 – PB 是一个起点
- 超高性能 – 低延迟、高 IOPS 和吞吐量
- 并行处理 – 理想情况下连接到大型计算阵列和多个独立网络
-
为了实现生成式人工智能所需的性能,许多组织正在转向使用基于闪存的固态硬盘 (SSD) 作为其本地阵列。虽然可以使用硬盘驱动器来存储人工智能数据,但闪存被认为是最佳选择。事实上, 一位专家 行业分析公司 NAND Research 最近表示,“那些认真对待大型语言模型的组织正在购买高端闪存。”
借助 SSD,企业可以在更小的空间内以更低的能耗提供所需的高 IOPS。SSD 也是高性能对象存储的理想选择,而对象存储通常是 AI 项目的首选存储类型。
甚至像 AWS、Azure 和 Google Cloud Platform 这样的超大规模企业也正在转向使用基于闪存的 SSD 系统来提供客户想要的性能。
群联电子为生成式人工智能提供创新数据存储
随着企业越来越意识到生成式人工智能的价值以及它如何帮助他们的业务,群联电子持续投资研发和创新,以满足他们不断变化的数据存储需求。
群联电子深谙人工智能及其成功所需的存储类型。为此,公司推出了专有定制服务 IMAGIN+,涵盖人工智能计算模型和人工智能服务解决方案。
该公司还推出了 爱DAPTIV+IMAGIN+ 的扩展。新服务充分利用了群联电子的“创新整合 将SSD引入AI计算架构,拓展NAND存储解决方案在AI应用市场。”
通过将固态硬盘 (SSD) 集成到 AI 计算框架中,群联 (Phison) 有助于提升 AI 硬件解决方案的运行性能,并通过减少对 GPU 和 DRAM 的依赖来降低 AI 项目的成本。群联 SSD 可以充当分流支持,使企业能够减少对 GPU 和 DRAM 的需求,从而训练其生成式 AI 模型。
借助群联电子的 aiDAPTIV+ 解决方案,各种规模的企业都能从生成式 AI 中获益,同时保持对专有数据的掌控。企业无需再花费数百万美元购买大量专用硬件和 GPU 来基于其数据训练 AI。
生成式人工智能 (Generative AI) 有望彻底改变各行各业的业务运营、产品设计、客户服务、市场营销等方方面面。借助群联的闪存和 SSD,您可以帮助企业做好准备,迎接这一变革。
来自 Phison 的附加 AI 内容