世界数据90%被创建 近两年.
这还不是全部,每年还在以40%的速度增长。数据不仅由人生成,还由软件和机器生成。我们今天已经讨论了太字节 (TB) 和拍字节 (PB),但是 一些专家 预计到 2025 年,每天将产生 463 艾字节 (EB) 的数据。
世界正在利用如此多的数据做什么?有很多商业和非商业应用:
-
-
- 财务、预订和其他业务交易
- 放射学、基因组学、气象学、地震学等领域的科学计算和分析。
- 基于网络的服务,例如云应用程序、社交媒体、视频流等
-
所有这些中有一件事是共同的—— 数据分析的使用 获得洞察、做出预测并推动创新,无论是在个人、机构还是商业环境中。
在企业中,数据分析对于实施人工智能 (AI) 和机器学习 (ML) 解决方案、提高生产力、识别高增长市场、简化运营并提供更好的客户体验是绝对必要的。
然而,当今数据集的规模和非结构化性质使得传统 IT 基础设施、应用程序和数据库管理系统几乎不可能快速或经济高效地处理和分析数据。
为了应对这一挑战,人们正在开发大量新技术,包括混合云架构、边缘/分布式计算、物联网、处理各种数据格式和查询的数据库、大规模并行处理等。这些对底层存储和数据处理基础设施提出了巨大的要求——大数据需要具有多核的强大CPU、更快的内存、更大的带宽,当然还需要具有更高容量、可以更快地访问和写入的可靠存储。
总的来说,数据存储和处理的速度更多地取决于数据的格式和访问数据的应用程序,而不是数据的存储位置。与直觉相反的是,这使得存储驱动器对于数据分析变得更加重要。
输入固态硬盘 (SSD)
SSD 已缓慢而坚定地成为企业中超高速存储的实际选择,尤其是在涉及大量数据处理的情况下。此外,当今大多数分析平台都在云上运行,用户可以根据需要访问它。但是,云服务提供商的数据中心(托管实际分析工作负载的地方) 也受益于加速方法 例如,基于 NAND 闪存的 SSD 支持并行化(运行多个并发数据进程)和混洗(增加应用程序处理的转换数据量)。
重要的是,SSD 的性价比也恰好位于 DRAM 和 HDD 之间。每比特成本远低于 DRAM,但访问时间和带宽的差异正在迅速缩小。另一方面,SSD 的每 GB 成本可能比 HDD 贵,但 I/O 性能高出几个数量级,从而导致每 IOPS 成本更低。
最重要的是,NAND 闪存(SSD 的构建模块)的定价预计将 比其他介质下降得更快,并最终为某些类别的产品匹配 $/GB 的 HDD,进一步提升 SSD 的价值主张。
那么 SSD 能为运行数据分析应用程序的企业带来哪些优势呢?
使用 SSD 进行数据分析的好处
适用于大数据应用的 SSD 类型可为您带来高达 70% 的速度和性能提升。以下是几乎专为分析量身定制的 SSD 的一些显着功能:
表现
分析应用程序往往是读取密集型的,并从顺序读取中递归地提取大量数据。在许多企业系统中,存储 I/O 是执行此操作的巨大瓶颈。多核 CPU 在随机或连续 I/O 进程发生时只是闲置。然而,SSD 的速度足以与 CPU 吞吐量相匹配,并让应用程序能够满负荷处理数据和分析。这使得 SSD 成为大数据分析的 I/O 密集型组件的理想选择。
非波动性
SSD 与 HDD 一样,在电源关闭时仍会保留数据,尽管它们是采用闪存单元构建的。与 DRAM 不同,它们不需要降级。
灵活性
分析应用程序有不同的要求,具体取决于它们处理和输出的数据类型以及它们运行的基础设施。 SSD 有多种版本可供选择 外形尺寸 和接口(例如 PCIe 和 SATA)。
可靠性
SSD 采用 NAND 闪存单元构建,只有在写入时才会磨损。然而,当今的企业级 SSD 速度超快,并且对于写入密集型工作负载始终表现良好。大多数 SSD 的平均无故障时间 (MTTF) 为 1 至 200 万小时,超过人类的平均寿命。
大数据和分析应用程序的特点通常是混合读/写工作负载,需要大规模的 IOPS 和极低的延迟。这些要求只有企业级SSD才能满足。
低功耗
由于 SSD 不包含旋转磁盘或其他移动部件,因此每台设备消耗的电量要少得多。这可以总体节省数据中心或本地基础设施的电力和冷却费用,特别是当系统中发生大规模交易,从而产生大量数据生成和处理需求时。
智能缓存
主机服务器中的 SSD 可以充当二级缓存,以在数据移出内存时保存数据 - 软件确定哪些数据块需要存储在缓存中。 SSD 还可以驻留在具有网络缓存的共享网络设备中,从而加速其背后的所有存储系统。这里也有两种类型的缓存:带外(只读)和带内(回写)。
低延迟
基于 PCIe 的 SSD 运行在 NVMe 等协议上,充分利用硬件和应用程序的全部功能,并使数据以极快的速度流过系统。由于完全没有主机控制器或适配器,它们的延迟率最低。
群联数据分析定制解决方案
群联以其可定制的 SSD 解决方案而闻名,这些解决方案可驱动各种企业工作负载,其中大多数工作负载都具有内置分析作为应用程序的组成部分。这些 SSD 正在突破速度、性能和容量的界限,同时只提供企业想要的结果。
2019年,群联推出 全球首款 PCIe Gen4x4 NVMe SSD 解决方案 – E16 控制器创造了新的存储性能记录,顺序读取速度为 5.5 GB/s,顺序写入速度为 4.4 GB/s。仅仅一年后,第二代E18控制器成为 世界上最快的 PCIe Gen4x4 NVMe SSD 解决方案,将顺序读取的标准提高到 7.4 GB/s,将顺序写入的标准提高到 7.0 GB/s。
对于具有超大规模存储需求的读取密集型分析应用程序,Phison 的 S12DC 控制器提供了 可定制和可升级的平台 适用于容量高达 15.36 TB 的 SSD。
作为一个单元,使用群联 SSD 构建的存储阵列可以为数据分析应用程序提供一些关键优势:
-
-
- 群联的定制 PCIe Gen4 SSD 解决方案将存储与计算分开,并消除了传统控制器设置的限制。这意味着机器学习的训练和控制集可以扩展到 1 PB,而不影响性能。
- Phison 的 NVMe SSD 控制器还允许通过高性能以太网动态配置卷。
- 高速、低延迟的存储控制器允许每个 GPU 节点直接、并行地访问媒体。这可以使 ML 算法的纪元时间加快 10 倍。
-
如今,数据和分析决定了企业的成败。业务的各个方面——包括进入新市场、推出新产品、优化供应链和产生新的收入来源——都需要某种形式的分析和数据治理。正如我们所看到的,在确保数据的及时性、有用性和可靠性方面,整个 IT 基础设施(尤其是 SSD)的作用不容忽视。