SSD 在人工智能和機器學習中的作用

作者安迪·希金波坦姆 | 2023 年 7 月 17 日 | 人工智慧, 全部, 企業, 精選

條款人工智能（AI）和機器學習 (ML) 在計算行業中的應用越來越多，但即使是經驗豐富的 IT 從業者也可能無法完全了解支持這兩種技術所需的計算和存儲基礎設施。本文研究了這個問題，並深入探討了固態硬盤 (SSD) 如何實現最佳 AI 和 ML 結果。

什麼是人工智能和機器學習？

理解人工智能和機器學習本質的第一步是要認識到它們不是同一件事。人工智能是關於創建能夠像人類一樣思考的軟件。機器學習涉及讓軟件學習新概念，然後繼續更好地掌握這些概念。它們是不同但相關且重疊的技術。

人工智能和機器學習也不是新想法。早在1950 年，計算機夢想家艾倫·圖靈就提出，機器可以像人一樣思考。到1959 年，人工智能先驅馬文·明斯基正在對一個非常早期的人工智能程序進行麻省理工學院新生微積分考試。它過去了。電影為我們呈現了具有殺傷力的 HAL 9000 2001：太空漫遊 以及同樣致命的天網 終結者。這些例子值得一提，因為小說影響了我們思考人工智能和機器學習的方式，同時也造成了一些混亂。

幸運的是，我們還沒有到達天網時代，但我們的世界充滿了人工智能和機器學習的令人印象深刻的例子。其中大多數規模並不大，也不華麗，但對商業和我們日常生活的影響卻絲毫不減。例如，機器人流程自動化（RPA）“機器人”可以使用人工智能來執行閱讀電子郵件和填寫表格等任務。機器學習驅動執法中的面部識別或醫療領域的癌症診斷等流程。

人工智能和機器學習如何工作？

雖然人工智能和機器學習編程有很多種，但從本質上講，這兩種技術都基於模式識別。在 RPA 電子郵件閱讀示例中，機器人經過訓練可以識別電子郵件中描述其內容的短語。包含“付款”或“逾期”字樣的消息適用於會計部門。

該機器人還可以解析電子郵件簽名並使用模式識別來確定消息是來自供應商（應付賬款）還是客戶（應收賬款）。這種類型的功能在網絡安全中也很有用，其中人工智能軟件可以檢查來自安全日誌的數百萬個數據點，並發現表明攻擊正在進行的異常行為。

機器學習同樣利用模式識別來更好地理解給定的知識領域。機器學習系統可以學習數據並不斷變得“更聰明”，而無需遵循編程代碼或特定規則。例如，機器學習算法可以“查看”一百萬張樹木和植物的圖像。在某些時候，算法會教會自己辨別樹和植物之間的區別。因此，人工智能和機器學習之間的本質區別在於，人工智能已經被教導如何發現模式，而機器學習仍在學習並更好地發現模式。

所有這些都需要處理大量數據。在某種程度上，人工智能和機器學習只是大數據范式的延伸。大數據和數據分析使得解釋大型、多樣化的數據集、發現視覺趨勢並提出新的見解成為可能。人工智能和機器學習使這一過程更進一步。他們利用現有的大數據分析和數據科學流程，例如數據挖掘、統計分析和預測建模，以實現基於大數據的推理、決策和行動步驟。

實際上，人工智能和機器學習包含四個獨立的流程，每個流程都涉及數據管理：

數據攝取——將多個來源的數據引入 Spark、Hadoop 和 NoSQL 數據庫等大數據平台，這是 AI 和 ML 工作負載的基礎
準備——使數據準備好用於人工智能和機器學習訓練
訓練——運行人工智能和機器學習軟件程序的訓練算法
推理——讓 AI 和 ML 軟件執行其推理工作流程

為什麼 NAND 閃存存儲對於 AI 和 ML 至關重要

大數據在人工智能和機器學習中的核心作用使得存儲成為這些工作負載的關鍵成功因素。如果沒有有效、靈活和高性能的存儲，人工智能和機器學習軟件將無法良好運行。或者至少，工作負載將無法充分利用計算和存儲基礎設施。

出於這些原因，NAND 閃存存儲是支持 AI 和 ML 的理想存儲介質。要了解原因，請考慮人工智能和機器學習四個階段中每個階段的存儲要求。

在數據攝取時，人工智能正在攝取大規模、高度多樣化的數據集，包括結構化和非結構化數據格式。數據可能來自廣泛的來源。成功的攝取需要大量存儲，可能以拍字節甚至艾字節為單位，而且還需要具有用於實時分析的快速層。與其他三個階段一樣，可靠性在這里至關重要。 NAND 閃存提供了可靠性和處理速度的最佳組合。

人工智能和機器學習的數據準備階段意味著轉換原始的、攝取的數據並對其進行格式化，以供人工智能和機器學習軟件的神經網絡在訓練和推理階段使用。文件輸入/輸出 (I/O) 速度在數據準備階段非常重要。 NAND 閃存在此用例中表現良好。

人工智能和機器學習的訓練和推理階段往往是計算密集型的。它們需要將數據高速傳輸到軟件中的訓練模型中。這是一個迭代過程，需要多次停止和啟動，如果存儲資源不適合該任務，所有這些都會導致存儲資源緊張。

SSD 如何助力 AI 和 ML 取得成功

規模為數據存儲人工智能和機器學習項目所需的存儲解決方案通常需要混合使用。分層方法通常是最好的，一些性能較低、成本較低的存儲保存相關性較低的數據。然而，還必須有一個高性能層，其規模可能比大數據生態系統中通常存在的層更大。

這意味著在 AI/ML 存儲環境的重要層部署 SSD。只有 SSD 才能提供支持在訓練階段輸入 AI 和 ML 軟件的大量數據快速移動所需的性能和延遲。隨著流程轉向推理，性能和延遲變得更加重要，尤其是在另一個工作流程中 AI/ML 系統的響應時間具有一定重要性的情況下。如果人們和其他系統正在等待緩慢的人工智能或機器學習系統完成其工作，那麼每個人都會受到影響。

群聯如何提供幫助

群聯可定制SSD解決方案提供成功處理 AI 和 ML 工作負載所需的卓越性能和靈活性。鑑於 AI/ML 存儲往往讀取密集度高於寫入密集度，群聯科技成為唯一一家以超值價格針對讀取密集型應用進行優化的 2.5 英寸 15.36 TB 7 毫米 SATA SSD 驅動器供應商。

正如在群聯ESR1710系列，它提供了最高的機架存儲密度和低功耗——這兩者都是人工智能和機器學習所需的經濟且高性能的存儲的基本要素。群聯 2.5 英寸 SATA SSD 的獨特尺寸是全球同尺寸 SSD 中容量最高的，使其能夠在單個 48U 機架中為 AI 和 ML 應用存儲高達 13 PB 的數據。這種密度可以為人工智能和機器學習帶來有利的存儲經濟性。

對於需要絕對的 AI/ML 應用最快的 PCIe Gen4x4 讀寫速度以及業界最低的功耗，群聯現已推出 X1固態硬盤系列採用 U.3 外形尺寸，向後兼容 U.2 插槽，容量高達 15.36 TB。