世界數據90%被創建 近兩年.
這還不是全部,每年還在以40%的速度增長。數據不僅由人生成,還由軟件和機器生成。我們今天已經討論了太字節 (TB) 和拍字節 (PB),但是 一些專家 預計到 2025 年,每天將產生 463 艾字節 (EB) 的數據。
世界正在利用如此多的數據做什麼?有很多商業和非商業應用:
-
-
- 財務、預訂和其他業務交易
- 放射學、基因組學、氣象學、地震學等領域的科學計算和分析。
- 基於網絡的服務,例如雲應用程序、社交媒體、視頻流等
-
所有這些中有一件事是共同的—— 數據分析的使用 獲得洞察、做出預測並推動創新,無論是在個人、機構還是商業環境中。
在企業中,數據分析對於實施人工智能 (AI) 和機器學習 (ML) 解決方案、提高生產力、識別高增長市場、簡化運營並提供更好的客戶體驗是絕對必要的。
然而,當今數據集的規模和非結構化性質使得傳統 IT 基礎設施、應用程序和數據庫管理系統幾乎不可能快速或經濟有效地處理和分析數據。
為了應對這一挑戰,人們正在開發大量新技術,包括混合雲架構、邊緣/分佈式計算、物聯網、處理各種數據格式和查詢的數據庫、大規模並行處理等。這些對底層存儲和數據處理基礎設施提出了巨大的要求——大數據需要具有多核的強大CPU、更快的內存、更大的帶寬,當然還需要具有更高容量、可以更快地訪問和寫入的可靠存儲。
總的來說,數據存儲和處理的速度更多地取決於數據的格式和訪問數據的應用程序,而不是數據的存儲位置。與直覺相反的是,這使得存儲驅動器對於數據分析變得更加重要。
輸入固態硬盤 (SSD)
SSD 已緩慢而堅定地成為企業中超高速存儲的實際選擇,尤其是在涉及大量數據處理的情況下。此外,當今大多數分析平台都在雲上運行,用戶可以根據需要訪問它。但是,雲服務提供商的數據中心(託管實際分析工作負載的地方) 也受益於加速方法 例如,基於 NAND 閃存的 SSD 支持並行化(運行多個並發數據進程)和混洗(增加應用程序處理的轉換數據量)。
重要的是,SSD 的性價比也恰好位於 DRAM 和 HDD 之間。每比特成本遠低於 DRAM,但訪問時間和帶寬的差異正在迅速縮小。另一方面,SSD 的每 GB 成本可能比 HDD 貴,但 I/O 性能高出幾個數量級,從而導致每 IOPS 成本更低。
最重要的是,NAND 閃存(SSD 的構建模塊)的定價預計將 比其他介質下降得更快,並最終為某些類別的產品匹配 $/GB 的 HDD,進一步提升 SSD 的價值主張。
那麼 SSD 能為運行數據分析應用程序的企業帶來哪些優勢呢?
使用 SSD 進行數據分析的好處
適用於大數據應用的 SSD 類型可為您帶來高達 70% 的速度和性能提升。以下是幾乎專為分析量身定制的 SSD 的一些顯著功能:
表現
分析應用程序往往是讀取密集型的,並從順序讀取中遞歸地提取大量數據。在許多企業系統中,存儲 I/O 是執行此操作的巨大瓶頸。多核 CPU 在隨機或連續 I/O 進程發生時只是閒置。然而,SSD 的速度足以與 CPU 吞吐量相匹配,並讓應用程序能夠滿負荷處理數據和分析。這使得 SSD 成為大數據分析的 I/O 密集型組件的理想選擇。
非波動性
SSD 與 HDD 一樣,在電源關閉時仍會保留數據,儘管它們是採用閃存單元構建的。與 DRAM 不同,它們不需要降級。
靈活性
分析應用程序有不同的要求,具體取決於它們處理和輸出的數據類型以及它們運行的基礎設施。 SSD 有多種版本可供選擇 外形尺寸 和接口(例如 PCIe 和 SATA)。
可靠性
SSD 採用 NAND 閃存單元構建,只有在寫入時才會磨損。然而,當今的企業級 SSD 速度超快,並且對於寫入密集型工作負載始終表現良好。大多數 SSD 的平均無故障時間 (MTTF) 為 1 至 200 萬小時,超過人類的平均壽命。
大數據和分析應用程序的特點通常是混合讀/寫工作負載,需要大規模的 IOPS 和極低的延遲。這些要求只有企業級SSD才能滿足。
低功耗
由於 SSD 不包含旋轉磁盤或其他移動部件,因此每台設備消耗的電量要少得多。這可以總體節省數據中心或本地基礎設施的電力和冷卻費用,特別是當系統中發生大規模交易,從而產生大量數據生成和處理需求時。
智能緩存
主機服務器中的 SSD 可以充當二級緩存,以在數據移出內存時保存數據 - 軟件確定哪些數據塊需要存儲在緩存中。 SSD 還可以駐留在具有網絡緩存的共享網絡設備中,從而加速其背後的所有存儲系統。這裡也有兩種類型的緩存:帶外(只讀)和帶內(回寫)。
低延遲
基於 PCIe 的 SSD 運行在 NVMe 等協議上,充分利用硬件和應用程序的全部功能,並使數據以極快的速度流經系統。由於完全沒有主機控制器或適配器,它們的延遲率最低。
群聯數據分析定制解決方案
群聯以其可定制的 SSD 解決方案而聞名,這些解決方案可驅動各種企業工作負載,其中大多數工作負載都具有內置分析作為應用程序的組成部分。這些 SSD 正在突破速度、性能和容量的界限,同時只提供企業想要的結果。
2019年,群聯推出 全球首款 PCIe Gen4x4 NVMe SSD 解決方案 – E16 控制器創造了新的存儲性能記錄,順序讀取速度為 5.5 GB/s,順序寫入速度為 4.4 GB/s。僅僅一年後,第二代E18控制器成為 世界上最快的 PCIe Gen4x4 NVMe SSD 解決方案,將順序讀取的標準提高到 7.4 GB/s,將順序寫入的標準提高到 7.0 GB/s。
對於具有超大規模存儲需求的讀取密集型分析應用程序,Phison 的 S12DC 控制器提供了 可定制和可升級的平台 適用於容量高達 15.36 TB 的 SSD。
作為一個單元,使用群聯 SSD 構建的存儲陣列可以為數據分析應用程序提供一些關鍵優勢:
-
-
- 群聯的定制 PCIe Gen4 SSD 解決方案將存儲與計算分開,並消除了傳統控制器設置的限制。這意味著機器學習的訓練和控制集可以擴展到 1 PB,而不影響性能。
- Phison 的 NVMe SSD 控制器還允許通過高性能以太網動態配置卷。
- 高速、低延遲的存儲控制器允許每個 GPU 節點直接、並行地訪問媒體。這可以使 ML 算法的紀元時間加快 10 倍。
-
如今,數據和分析決定了企業的成敗。業務的各個方面——包括進入新市場、推出新產品、優化供應鍊和產生新的收入來源——都需要某種形式的分析和數據治理。正如我們所看到的,在確保數據的及時性、有用性和可靠性方面,整個 IT 基礎設施(尤其是 SSD)的作用不容忽視。