세계의 90% 데이터가 생성되었습니다. 지난 2년 동안.
그게 다가 아닙니다. 매년 40%의 비율로 증가하고 있습니다. 데이터는 사람뿐만 아니라 소프트웨어와 기계에 의해서도 생성되고 있습니다. 오늘날 우리는 이미 테라바이트(TB)와 페타바이트(PB) 단위로 이야기하고 있지만 일부 전문가 2025년까지 매일 463엑사바이트(EB)의 데이터가 생성될 것으로 예상됩니다.
이렇게 많은 데이터로 세상은 무엇을 하고 있을까요? 상업용 및 비상업용 응용 프로그램이 많이 있습니다.
-
-
- 금융, 예약 및 기타 비즈니스 거래
- 방사선학, 유전체학, 기상학, 지진학 등의 과학적 계산 및 분석
- 클라우드 앱, 소셜 미디어, 비디오 스트리밍 등과 같은 웹 기반 서비스
-
이들 모두에게 공통적인 한 가지는 – 데이터 분석의 사용 개인, 기관 또는 비즈니스 환경에서 통찰력을 얻고 예측하고 혁신을 주도합니다.
기업에서 데이터 분석은 인공 지능(AI) 및 기계 학습(ML) 솔루션을 구현하고, 생산성을 개선하고, 고성장 시장을 식별하고, 운영을 간소화하고, 더 나은 고객 경험을 제공하기 위해 절대적으로 필요합니다.
그러나 오늘날 데이터 세트의 규모와 구조화되지 않은 특성으로 인해 기존 IT 인프라, 애플리케이션 및 데이터베이스 관리 시스템이 데이터를 신속하게 또는 비용 효율적으로 처리하고 분석하는 것은 거의 불가능합니다.
하이브리드 클라우드 아키텍처, 에지/분산 컴퓨팅, IoT, 다양한 데이터 형식 및 쿼리를 처리하는 데이터베이스, 대규모 병렬 처리 등을 포함하여 이 문제를 해결하기 위해 수많은 새로운 기술이 개발되고 있습니다. 따라서 기본 스토리지 및 데이터 처리 인프라에 대한 수요가 엄청나게 많습니다. 빅 데이터에는 다중 코어가 있는 강력한 CPU, 더 빠른 메모리, 더 많은 대역폭, 더 빠르게 액세스하고 쓸 수 있는 대용량의 안정적인 스토리지가 필요합니다.
전체적으로 볼 때 데이터 저장 및 처리 속도는 데이터의 형식과 데이터가 저장된 위치보다 데이터에 액세스하는 애플리케이션에 더 많이 의존합니다. 직관에 반하는 것은 스토리지 드라이브가 데이터 분석에 훨씬 더 중요하다는 것입니다.
솔리드 스테이트 드라이브(SSD) 도입
SSD는 특히 많은 데이터 처리가 관련된 기업에서 초고속 스토리지를 위한 사실상의 선택으로 느리지만 확실하게 등장했습니다. 또한 오늘날 대부분의 분석 플랫폼은 사용자가 필요에 따라 액세스하는 클라우드에서 실행됩니다. 그러나 클라우드 서비스 공급자의 데이터 센터(실제 분석 워크로드가 호스팅되는 곳) 또한 가속 방법의 이점 NAND 플래시 기반 SSD에서 지원하는 병렬화(여러 동시 데이터 프로세스 실행) 및 셔플링(응용 프로그램에서 처리하는 전환 데이터의 양 증가)과 같은 것입니다.
결정적으로 SSD는 DRAM과 HDD 사이에 꼭 맞는 가격 대비 성능을 제공합니다. 비트당 비용은 DRAM보다 상당히 낮지만 액세스 시간과 대역폭의 차이는 빠르게 좁혀지고 있습니다. 반면에 SSD는 GB당 비용 면에서 HDD보다 더 비쌀 수 있지만 I/O 성능은 몇 자릿수 더 높기 때문에 IOPS당 비용은 낮아집니다.
무엇보다 NAND 플래시 메모리(SSD의 구성 요소)의 가격은 다른 매체보다 빠르게 하락, 그리고 결국 일부 제품 범주에 대해 $/GB의 HDD를 일치시켜 SSD 가치 제안을 더욱 달콤하게 만듭니다.
그렇다면 SSD는 데이터 분석 애플리케이션을 실행하는 기업에 어떤 이점을 제공할까요?
데이터 분석에 SSD를 사용할 때의 이점
빅 데이터 애플리케이션에 적합한 종류의 SSD는 최대 70%의 속도와 성능을 제공할 수 있습니다. 분석을 위해 거의 맞춤 제작된 SSD의 몇 가지 두드러진 기능은 다음과 같습니다.
성능
분석 애플리케이션은 읽기 집약적인 경향이 있으며 순차 읽기에서 엄청난 양의 데이터를 재귀적으로 가져옵니다. 많은 엔터프라이즈 시스템에서 스토리지 I/O는 이를 수행하는 데 큰 병목 현상입니다. 멀티코어 CPU는 랜덤 또는 순차 I/O 프로세스가 진행되는 동안에도 단순히 유휴 상태입니다. 그러나 SSD는 CPU 처리량과 일치할 만큼 충분히 빠르며 애플리케이션이 전체 용량에서 데이터 및 분석을 처리할 수 있도록 합니다. 따라서 SSD는 빅 데이터 분석의 I/O 바인딩 구성 요소에 이상적입니다.
비휘발성
SSD는 플래시 셀로 구성되어 있지만 HDD와 마찬가지로 전원이 꺼져도 데이터를 유지합니다. DRAM과 달리 디스테이징이 필요하지 않습니다.
유연성
분석 앱은 처리하고 출력하는 데이터의 종류와 실행되는 인프라에 따라 요구 사항이 다릅니다. SSD는 다양한 형태로 제공됩니다. 폼 팩터 및 인터페이스(예: PCIe 및 SATA).
신뢰할 수 있음
SSD는 쓸 때만 마모되는 NAND 플래시 셀로 제작됩니다. 그러나 오늘날의 엔터프라이즈급 SSD는 초고속이며 쓰기 집약적인 워크로드에 대해 지속적으로 우수한 성능을 발휘합니다. 대부분의 SSD는 평균 고장 시간(MTTF) 속도가 100만~200만 시간으로 인간의 평균 수명보다 오래갑니다.
빅 데이터 및 분석 애플리케이션은 대기 시간이 매우 짧은 대규모 IOPS를 요구하는 혼합 읽기/쓰기 워크로드로 특징지어지는 경우가 많습니다. 이러한 요구 사항은 엔터프라이즈급 SSD로만 충족될 수 있습니다.
저전력 소비
SSD에는 회전 디스크나 기타 움직이는 부품이 없기 때문에 장치당 훨씬 적은 전력을 소비합니다. 이는 데이터 센터 또는 온프레미스 인프라에서 전력 및 냉각 비용의 전반적인 절감으로 이어지며, 특히 시스템에서 대규모 트랜잭션이 발생하여 대규모 데이터 생성 및 처리 요구가 발생할 때 더욱 그렇습니다.
지능형 캐싱
호스트 서버의 SSD는 데이터가 메모리 밖으로 이동할 때 데이터를 보관하는 레벨 2 캐시 역할을 할 수 있습니다. 소프트웨어는 캐시에 저장해야 하는 데이터 블록을 결정합니다. SSD는 또한 그 뒤에 있는 모든 스토리지 시스템을 가속화하는 네트워크 캐싱이 있는 공유 네트워크 어플라이언스에 상주할 수 있습니다. 여기에도 대역 외(읽기 전용) 및 대역 내(후기입)의 두 가지 유형의 캐시가 있습니다.
짧은 대기 시간
NVMe와 같은 프로토콜에서 실행되는 PCIe 기반 SSD는 하드웨어와 애플리케이션의 모든 기능을 활용하고 시스템을 통해 데이터 흐름을 빠른 속도로 유지합니다. 호스트 컨트롤러나 어댑터가 전혀 없기 때문에 대기 시간이 가장 낮습니다.
데이터 분석을 위한 Phison의 맞춤형 솔루션
Phison은 다양한 엔터프라이즈 워크로드를 구동하는 맞춤형 SSD 솔루션으로 유명하며, 대부분 애플리케이션의 필수 부분으로 분석 기능이 내장되어 있습니다. 이러한 SSD는 속도, 성능 및 용량의 한계를 뛰어넘는 동시에 기업이 원하는 결과를 제공합니다.
2019년 Phison은 세계 최초의 PCIe Gen4x4 NVMe SSD 솔루션 – 순차 읽기의 경우 5.5GB/s, 순차 쓰기의 경우 4.4GB/s로 새로운 스토리지 성능 기록을 세운 E16 컨트롤러. 불과 1년 후, 2세대 E18 컨트롤러가 세계에서 가장 빠른 PCIe Gen4x4 NVMe SSD 솔루션, 순차 읽기의 경우 표준을 7.4GB/s로, 순차 쓰기의 경우 7.0GB/s로 높였습니다.
대규모 스토리지 요구 사항이 있는 읽기 집약적 분석 애플리케이션의 경우 Phison의 S12DC 컨트롤러는 다음을 제공합니다. 맞춤형 및 업그레이드 가능한 플랫폼 최대 15.36TB 용량의 SSD용.
단일 장치로 볼 때 Phison의 SSD로 구축된 스토리지 어레이는 데이터 분석 애플리케이션에 몇 가지 중요한 이점을 제공할 수 있습니다.
-
-
- Phison의 맞춤형 PCIe Gen4 SSD 솔루션은 컴퓨팅에서 스토리지를 분리하고 레거시 컨트롤러가 설정한 한계를 없앱니다. 즉, 기계 학습을 위한 교육 및 제어 세트는 성능에 영향을 주지 않고 최대 1PB까지 확장할 수 있습니다.
- Phison의 NVMe SSD 컨트롤러는 또한 고성능 이더넷 네트워크를 통해 볼륨을 동적으로 프로비저닝할 수 있습니다.
- 지연 시간이 짧은 고속 스토리지 컨트롤러를 통해 모든 GPU 노드가 미디어에 직접 병렬 액세스할 수 있습니다. 이를 통해 ML 알고리즘의 에포크 시간을 최대 10배 더 빠르게 만들 수 있습니다.
-
데이터와 분석은 오늘날 비즈니스의 성패를 좌우합니다. 새로운 시장 진출, 신제품 출시, 공급망 최적화, 새로운 수익원 창출 등 비즈니스의 모든 측면에는 어떤 형태의 분석 및 데이터 거버넌스가 필요합니다. 그리고 우리가 본 것처럼, 데이터의 적시성, 유용성 및 신뢰성을 보장하는 데 있어 대규모 IT 인프라, 특히 SSD의 역할을 무시할 수 없습니다.