数据是研究的命脉。一直以来都是如此,但随着当今先进技术的出现,生命科学、医学和制药行业的研究人员正在寻找更具创新性的方法来整合和研究数据,以推动他们拯救生命(或改善生活)的突破。
一个组织收集和分析数据的能力越强,他们的研究结果就越准确、越有益。研究人员之间的竞争可能非常激烈,成功往往属于那些能够最有效地从数据中提取价值的团队。这可能就是为什么 2021 年研究 研究表明,超过一半的制药公司领导者认为,提高其组织的数据和分析能力是来年的首要任务。从那时起,对数据科学素养和数据使用方法的需求就变得更加迫切。
当今研究领域中解锁新见解的技术
大数据是医学研究成果的关键。它需要大量信息来支持基因组学、生物信息学、预测生物学、化学、药理学等领域的大型项目。幸运的是,先进的技术已经出现,使研究人员能够利用这些数据。这些包括:
-
-
- 数据分析 – 这涉及收集数据;清理(或“擦洗”)数据以将其提炼为没有重复或错误的高质量数据集;创建分析模型;数据挖掘以识别模式和异常;并解释数据和发现以发现见解。
-
-
-
- 人工智能和机器学习 (ML) – 这些技术有助于数据分析,因为人工智能和机器学习可以非常快速地处理大量数据,并比以往更快、更有效地找到这些模式和关系。借助机器学习,研究平台可以自学,随着接收到更多数据,它可以更聪明地了解什么是相关的,什么是不相关的。这些平台可以帮助团队获得他们以前从未注意到的见解。
-
-
-
- 高性能计算 (HPC) – 由于研究需要大量数据和高性能 AI、ML 和分析系统,因此团队必须使用专为处理研究产生的大量工作负载而设计的 HPC 系统。过去,唯一可用的 HPC 系统是通常由政府或教育机构拥有的大型超级计算机。然而,如今,计算能力已经取得了长足的进步,借助正确的软件和应用程序,团队可以在商用服务器上实现 HPC 级别的性能。
-
研究人员通常结合使用这些技术来从数据中获取必要的见解。借助大数据、良好的分析平台、AI、ML 和 HPC,当今的研究人员可以创造更安全、更有效的产品,加速研究阶段,识别具有治疗疾病潜力的新分子,提高产品有效性,识别特定疾病风险人群,更有效地预测和应对疫情,预测术后并发症,简化诊断,提高医疗设备的效率等等。
以下只是大数据与最新技术相结合的一个例子: 能源部科学办公室 1990 年,美国国立卫生研究院与美国国家卫生研究院合作,对整个 30 亿个碱基对的人类基因组进行测序。该项目耗时 10 年,耗资近 1440 亿美元。然而,今天,由于计算能力和其他技术的进步,人类基因组可以在不到 24 小时内测序,大约 价格仅为最新款 iPhone 的一半.
大数据对数据存储带来更大期待
最近的一篇文章 临床负责人 文章指出,2012 年,估计第三阶段医学研究收集了近 100 万个数据点。然而,如今医疗保健数据点的数量已达数十亿。文章接着说:“这种急剧增长要求采用新策略来改进支持这一新规模的数据收集、处理和归档。”
医学研究项目的数据存储需要能够处理大量数据,而不会影响性能。使用 AI、ML 和数据分析的系统必须提供低延迟和高吞吐量。它们必须能够支持读取密集型和写入密集型工作负载。它们需要能够支持快速可扩展性且不会消耗太多电力的基础设施。
传统数据存储已无法满足先进医学和生命科学研究的存储需求。这些系统正在造成瓶颈并减缓研究和临床试验的速度——这意味着需要等待更长的时间才能取得实际突破。
部分问题在于,生命科学公司并没有很快进行数字化转型。最近 麦肯锡报告 发现,即使到了2022年,生命科学公司仍然落后于其他行业数字成熟度领导者一到两到三倍,“没有任何明显的赶超迹象”。
这些组织需要一种新的数据存储方法,能够满足当今的高级需求。它应该能够打破数据孤岛,使数据共享更加高效;根据需要轻松扩展;并且能够支持数据分析、HPC、AI 和 ML 的高性能需求。
群联如何提供帮助
由于需要快速响应时间和低延迟,以及研究数据集的总体大小,固态硬盘 (SSD) 是数据存储的明智选择。事实上,组织越来越多地转向全闪存存储阵列。与传统硬盘 (HDD) 相比,SSD 提供更高的传输速率和更低的延迟,并且功耗更低。
作为 NAND 闪存 SSD 和其他数据存储解决方案的全球领导者,群联拥有一系列旨在满足当今密集存储需求的产品。例如,该公司的 企业级 SSD 平台 支持存储和性能需求 人工智能、ML、HPC 和数据分析平台。它可以帮助消除以下挑战:
-
-
- 超大数据集
- 需要 CPU 和 GPU 的高性能和快速数据流
- HDD 的机械漏洞
-
借助群联,各组织可以实现其医学研究所需的更快、更智能的基础设施。