컴퓨팅 스토리지 재고: SSD의 처리 능력 활용

작가 | 2025년 4월 8일 | 모두, 기업, 추천

몇 년 전, 계산 저장소 업계 관계자들 사이에서 논의되었고, CPU 처리 능력을 극대화하는 방법에 대한 오래된 질문에 대한 잠재적인 해답으로 거론되었습니다. 이 아이디어는 언뜻 보기에 매우 설득력 있어 보였습니다. SSD와 같은 저장 장치가 실제로 저장된 정보의 일부를 처리하여 저장 장치와 CPU 간 데이터 이동량을 줄일 수 있다고 상상해 보세요. 이론적으로는 전력을 절약하고, 데이터 전송량을 줄이며, 연산 속도를 높이는 데 도움이 될 수 있습니다.  

그러나 지금까지 많은 혁신적인 아이디어와 마찬가지로 이 개념을 사업으로 전환할 방법이 없었습니다. 그 이유는 각 사용 사례가 매우 독특하고 확장이 불가능하기 때문입니다.  

엔지니어와 개발자들이 컴퓨팅 스토리지에 대해 이야기할 때, 흔히 허황된 꿈만 꾸는 경우가 많습니다. "드라이브에서 리눅스를 구동할 수 있고, 더 큰 프로세서만 장착하면 어떨까?"라는 식의 이야기입니다. 이러한 아이디어는 혁신적으로 보일 수 있지만, 핵심과 실질적인 적용성이 부족합니다. 지나치게 복잡하고 기술적 이상주의에 사로잡힌 잘못된 생각입니다. 궁극적으로 이러한 생각은 기대했던 이점을 가져다주지 못할 것입니다.   

 

 

더욱 스마트한 접근 방식: 맞춤형 가속

Phison에서는 NAND 스토리지 기술 혁신에 대한 전문 지식을 활용하여 SSD의 처리 부담을 덜어주는 더 나은 방법을 모색했습니다. 이는 스토리지 장치가 가장 적합한 작업, 즉 다양한 논리 블록 주소 지정(LBA)에 고정 연산을 적용하는 작업에 초점을 맞춘 맞춤형 가속 방식을 통해 가능했습니다. 과도한 전력이나 복잡성을 요구하지 않는 특정 작업을 처리하기 위해 특수 가속기를 SSD에 통합했습니다. 

예를 들어, 대용량 데이터 세트 검증, 객체 기반 삭제 코딩, 체크섬 검증, CPU에 도달하기도 전에 관련 없는 정보 필터링 등 특정 작업을 매우 빠른 속도로 수행할 수 있는 하드웨어 가속기를 개발합니다. 이를 통해 특히 데이터 센터나 슈퍼컴퓨팅 클러스터와 같이 수요가 높은 환경에서 더욱 빠르고 효율적인 데이터 처리가 가능합니다. SSD 수준에서 데이터를 처리하면 PCIe 버스 또는 네트워크를 통해 이동해야 하는 데이터 양을 줄일 수 있으며, 이를 통해 혼잡을 완화하고 대역폭 제한을 완화하며 전반적인 성능을 향상시킬 수 있습니다. 

이러한 가속기는 "원숭이 작업"으로 간주되는 매우 구체적인 작업에 집중함으로써 상당한 비용이나 전력 소비 없이 상당한 이점을 제공할 수 있습니다. 가속화된 SSD는 기존 프로세서보다 전력 소비를 줄이면서 대용량 데이터를 훨씬 빠르게 처리할 수 있습니다. 중요한 점은 이러한 접근 방식을 여러 드라이브로 확장하여 기존 CPU 중심 처리보다 성능이 뛰어난 더욱 효율적이고 병렬화된 시스템을 구축할 수 있다는 것입니다. 

호스트 CPU는 개별 SSD보다 위에 나열된 모든 작업을 더 빠르게 수행할 수 있지만 전체 CPU에는 실질적인 제한이 있습니다. 음주 OS와 관련 없는 작업에 할당할 수 있는 대역폭을 제공합니다. 또한, SSD에서 DRAM으로 데이터를 이동하는 데는 CPU에서 사용 가능한 DDR 대역폭의 약 절반이 사용됩니다. 올플래시 스토리지 섀시에 SSD를 30개, 60개, 심지어 90개까지 장착할 수 있다는 점을 고려하면, 이는 어플라이언스에 상당한 오프로드 기능을 제공합니다. Gen6 SSD 90개를 장착한 섀시는 CPU 리소스에 영향을 주지 않고 2.5TB/s의 속도로 데이터를 처리할 수 있습니다. 이 경우, SSD는 사전 필터링 및 사전 컴퓨팅 작업을 수행하는 반면 CPU는 더 중요한 작업을 관리합니다. 

 

 

HPC 및 보안 분야의 새로운 애플리케이션이 컴퓨팅 스토리지 환경을 변화시키고 있습니다. 

최근 Phison은 방향을 전환하여 CPU 작업 부하의 일부를 SSD로 분산하는 새로운 방법을 모색하기 시작했습니다. 이는 단순히 타깃 가속기를 넘어서는 것입니다. 경우에 따라 Phison은 스토리지 어레이에 CPU 클러스터를 추가하기도 합니다. 하지만 가장 큰 차이점은 CPU 클러스터가 계산에 사용되는 것이 아니라 웹 서비스나 마이크로서비스를 실행하는 데 사용된다는 것입니다. 이러한 클러스터는 추가 주소 지정 가능 영역으로 표시됩니다. CXL 서비스 PCIe 버스에서. 

예를 들어, 파이프라인 작업이 많이 필요한 AI 프로젝트를 생각해 보겠습니다. 하나의 대규모 언어 모델(LLM)이 데이터를 생성하여 출력하고, 다른 LLM이 이를 받아 변환하여 다른 LLM으로 전송하는 식으로 진행됩니다. TED 강연 영상 번역을 예로 들 수 있습니다. 한 LLM이 영어 오디오를 추출하여 텍스트로 변환하고, 다른 LLM이 텍스트를 중국어로 번역하고, 유명인의 음성으로 학습된 또 다른 LLM이 해당 오디오 트랙을 생성하는 과정을 반복합니다. 최종적으로 해당 유명인이 입술 모양을 따라 하면서 중국어로 강연하는 완전히 새로운 영상이 생성됩니다.  

이 복잡한 작업은 일반적으로 CPU나 GPU가 처리하는 여러 작은 단계들을 포함하며, 많은 모델 스왑을 필요로 합니다. 메인 CPU를 사용하여 이러한 가속기에 작업을 위임하고 다른 상위 수준의 작업을 수행하는 동안 SSD를 사용하여 백그라운드에서 이러한 작은 단계들을 처리할 수 없는 이유는 무엇일까요? 고성능 컴퓨팅(HPC) 조직에서는 그 결과가 놀라울 수 있습니다.  

HPC 클러스터가 100페타바이트(PB)의 데이터 스토리지(이중 및 삼중 중복 포함)를 갖는 것은 드문 일이 아니며, 이는 10만 개의 SSD를 사용하여 워크로드를 분산할 수 있음을 의미합니다. 하루나 이틀 걸리던 작업이 단 몇 초 만에 완료되는 놀라운 속도입니다.  

대규모 HPC 어레이에는 SSD가 너무 많아서 SSD의 대역폭이 전체 네트워크나 CPU 대역폭을 능가합니다. Phison은 바로 이 부분에서 SSD가 지능적인 작업을 수행할 수 있는 거대한 미개척 영역이 존재한다는 것을 깨달았습니다.  

HPC 사용 사례가 속도와 컴퓨팅에 관한 것이라면, 보안 사용 사례도 살펴보겠습니다. 보안 사용 사례는 TPM 2.0이 달성하는 것보다 훨씬 더 뛰어난 보안 서비스를 제공하는 견고한 FIPS 140-3 호환 제품에 관한 것입니다.  

SSD는 초당 수백 건의 서명 및 검증과 같은 암호화 작업을 실행할 수 있으며, 서버에 SSD가 30개에서 90개까지 있으면 처리 능력도 그에 따라 향상됩니다. 각 SSD는 HSM(하드웨어 보안 모듈) 서버를 가리키는 신뢰 루트를 갖춘 독립적인 하드웨어 기반 에이전트 역할을 할 수 있습니다. 이러한 모든 드라이브는 디지털 서명 알고리즘(DSA) 엔진으로 설계되지 않았기 때문에 하나의 강력한 CPU가 할 수 있는 작업을 능가합니다. 이러한 여러 SSD의 성능과 서버에 이미 설치된 하드웨어라는 점이 결합되어 보안 강화에 큰 이점을 제공합니다.  

 

 

특이성을 통해 복잡성 제거

Phison은 여전히 컴퓨팅 스토리지의 전통적이고 일반적인 개념이 궁극적으로는 어떤 결과도 가져오지 못할 것이라고 생각하지만, 컴퓨팅 스토리지에 대한 다른 접근 방식이 도움이 될 수 있는 사용 사례가 있습니다. 특정 대상에 특화된 가속기는 특정 작업을 덜 복잡하게 만듭니다. SSD의 방대한 온보드 대역폭과 그 성능을 새로운 방식으로 활용할 때 얻을 수 있는 잠재적 이점을 고려하면 가까운 미래에 흥미로운 애플리케이션이 탄생할 수 있을 것입니다.  

 

혁신을 가속화하는 기반™

ko_KR한국어