90% der Daten der Welt wurden erstellt in den letzten zwei Jahren.
Das ist noch nicht alles, es wächst jedes Jahr um 401 TP3T. Daten werden nicht nur von Menschen, sondern auch von Software und Maschinen generiert. Wir sprechen heute schon von Terabyte (TB) und Petabyte (PB), aber einige Experten Schätzungen zufolge werden bis 2025 täglich 463 Exabyte (EB) an Daten produziert.
Was macht die Welt mit so vielen Daten? Es gibt viele kommerzielle und nichtkommerzielle Anwendungen:
-
-
- Finanz-, Buchungs- und andere Geschäftstransaktionen
- Wissenschaftliche Berechnungen und Analysen in der Radiologie, Genomik, Meteorologie, Seismologie usw.
- Webbasierte Dienste wie Cloud-Apps, soziale Medien, Video-Streaming und so weiter
-
Allen ist eines gemeinsam: der Einsatz von Datenanalysen um Erkenntnisse zu gewinnen, Vorhersagen zu treffen und Innovationen voranzutreiben, sei es im individuellen, institutionellen oder geschäftlichen Umfeld.
Im Unternehmen ist Datenanalyse unbedingt erforderlich, um Lösungen für künstliche Intelligenz (KI) und maschinelles Lernen (ML) zu implementieren, die Produktivität zu verbessern, wachstumsstarke Märkte zu identifizieren, Abläufe zu rationalisieren und ein besseres Kundenerlebnis zu bieten.
Aufgrund des Umfangs und der unstrukturierten Natur der heutigen Datensätze ist es für herkömmliche IT-Infrastrukturen, Anwendungen und Datenbankverwaltungssysteme jedoch nahezu unmöglich, Daten schnell und kostengünstig zu verarbeiten und zu analysieren.
Zahlreiche neue Technologien werden entwickelt, um dieser Herausforderung zu begegnen, darunter hybride Cloud-Architekturen, Edge/Distributed Computing, IoT, Datenbanken, die eine Vielzahl von Datenformaten und Abfragen verarbeiten, massive Parallelverarbeitung und so weiter. Diese stellen enorme Anforderungen an die zugrunde liegende Speicher- und Datenverarbeitungsinfrastruktur – Big Data benötigt leistungsstarke CPUs mit mehreren Kernen, schnelleren Speicher, mehr Bandbreite und natürlich zuverlässigen Speicher mit höheren Kapazitäten, auf den schneller zugegriffen und geschrieben werden kann.
Insgesamt hängt die Geschwindigkeit der Datenspeicherung und -verarbeitung mehr vom Format der Daten und den darauf zugreifenden Anwendungen als davon ab, wo sie gespeichert sind. Und entgegen der Intuition wird das Speicherlaufwerk dadurch für die Datenanalyse sogar noch wichtiger.
Geben Sie Solid-State-Laufwerke (SSDs) ein
SSDs haben sich langsam aber sicher zur de facto Wahl für ultraschnelle Speicherung in Unternehmen entwickelt, insbesondere wenn viel Datenverarbeitung anfällt. Darüber hinaus laufen die meisten Analyseplattformen heute in der Cloud, wo Benutzer bei Bedarf darauf zugreifen. Allerdings sind die Rechenzentren der Cloud-Dienstanbieter (in denen die eigentliche Analyse-Workload gehostet wird) Profitieren Sie auch von Beschleunigungsmethoden wie Parallelisierung (Ausführung mehrerer gleichzeitiger Datenprozesse) und Shuffling (Erhöhung des Volumens der von Anwendungen verarbeiteten Übergangsdaten), die von NAND-Flash-basierten SSDs unterstützt werden.
Entscheidend ist, dass SSDs auch ein Preis-Leistungs-Verhältnis bieten, das genau zwischen DRAM und HDDs liegt. Die Kosten pro Bit sind deutlich niedriger als bei DRAMs, aber der Unterschied bei Zugriffszeiten und Bandbreite verringert sich schnell. Andererseits sind SSDs hinsichtlich der Kosten pro GB möglicherweise teurer als HDDs, aber die I/O-Leistung ist um mehrere Größenordnungen höher, was zu niedrigeren Kosten pro IOPS führt.
Das Beste ist, dass die Preise für NAND-Flash-Speicher (die Bausteine von SSD) voraussichtlich steigen werden fallen schneller als andere Medienund schließlich passende Festplatten mit $/GB für einige Produktkategorien, was das SSD-Wertversprechen noch mehr verschönert.
Welche Vorteile bringen SSDs also für Unternehmen, die Datenanalyseanwendungen betreiben?
Vorteile der Verwendung von SSDs für die Datenanalyse
Mit der richtigen SSD für Big-Data-Anwendungen können Sie Geschwindigkeit und Leistung um bis zu 70% steigern. Hier sind einige hervorstechende Merkmale von SSDs, die nahezu maßgeschneidert für Analysen sind:
Leistung
Analyseanwendungen neigen dazu, leseintensiv zu sein und riesige Datenmengen rekursiv aus sequentiellen Lesevorgängen abzurufen. In vielen Unternehmenssystemen stellt der Speicher-I/O hierfür einen großen Engpass dar. Multicore-CPUs bleiben einfach im Leerlauf, während zufällige oder sogar sequentielle I/O-Prozesse stattfinden. Allerdings sind SSDs schnell genug, um mit dem CPU-Durchsatz mitzuhalten und die Anwendung Daten und Analysen mit voller Kapazität verarbeiten zu lassen. Dadurch eignen sich SSDs ideal für die I/O-gebundene Komponente der Big-Data-Analyse.
Nichtflüchtigkeit
SSDs speichern Daten, wenn der Strom ausgeschaltet wird, genau wie HDDs, obwohl sie mit Flash-Zellen ausgestattet sind. Im Gegensatz zu DRAM ist kein Destaging erforderlich.
Flexibilität
Für Analytics-Apps gelten unterschiedliche Anforderungen, abhängig von der Art der Daten, die sie verarbeiten und ausgeben, sowie der Infrastruktur, auf der sie ausgeführt werden. SSDs sind in verschiedenen Ausführungen erhältlich Formfaktoren und Schnittstellen (wie PCIe und SATA).
Zuverlässigkeit
SSDs sind mit NAND-Flash-Zellen ausgestattet, die sich nur beim Beschreiben abnutzen. Heutige SSDs der Enterprise-Klasse sind jedoch superschnell und bieten eine konstant gute Leistung bei schreibintensiven Arbeitslasten. Die meisten SSDs haben eine mittlere Ausfallzeit (MTTF) von 1 bis 2 Millionen Stunden, was länger als das durchschnittliche menschliche Leben dauert.
Big-Data- und Analyseanwendungen zeichnen sich häufig durch gemischte Lese-/Schreib-Workloads aus, die enorme IOPS-Anforderungen bei sehr geringer Latenz erfordern. Diese Anforderungen können nur SSDs der Enterprise-Klasse erfüllen.
Energieeffizient
Da SSDs keine rotierenden Festplatten oder andere bewegliche Teile enthalten, verbrauchen sie pro Gerät weitaus weniger Strom. Dies führt insgesamt zu Einsparungen bei den Strom- und Kühlkosten im Rechenzentrum oder in der Infrastruktur vor Ort, insbesondere wenn umfangreiche Transaktionen im System stattfinden, was zu einem enormen Bedarf an Datengenerierung und -verarbeitung führt.
Intelligentes Caching
SSDs im Hostserver können als Level-2-Caches fungieren, um Daten zu speichern, wenn diese aus dem Speicher verschoben werden – die Software bestimmt, welche Datenblöcke im Cache gespeichert werden müssen. SSDs können sich auch in einer gemeinsam genutzten Netzwerk-Appliance mit Netzwerk-Caching befinden, das alle dahinter liegenden Speichersysteme beschleunigt. Auch hier gibt es zwei Arten von Caches: Out-of-Band (Read-Only) und In-Band (Write-Back).
Geringe Wartezeit
PCIe-basierte SSDs, die auf Protokollen wie NVMe laufen, nutzen die volle Leistung der Hardware sowie der Anwendung und sorgen für einen rasanten Datenfluss durch das System. Da keine Host-Controller oder Adapter vorhanden sind, weisen sie die niedrigsten Latenzraten auf.
Maßgeschneiderte Lösungen von Phison für die Datenanalyse
Phison ist bekannt für seine anpassbaren SSD-Lösungen, die eine Vielzahl von Unternehmens-Workloads steuern und von denen die meisten über integrierte Analysen als integralen Bestandteil der Anwendung verfügen. Diese SSDs verschieben die Grenzen von Geschwindigkeit, Leistung und Kapazität und liefern gleichzeitig genau die Ergebnisse, die Unternehmen wünschen.
Im Jahr 2019 brachte Phison das auf den Markt weltweit erste PCIe Gen4x4 NVMe SSD-Lösung – der E16-Controller, der mit 5,5 GB/s beim sequentiellen Lesen und 4,4 GB/s beim sequentiellen Schreiben neue Leistungsrekorde im Speicher aufstellte. Nur ein Jahr später erschien der E18-Controller der zweiten Generation die schnellste PCIe Gen4x4 NVMe SSD-Lösung der Welt, was den Standard auf 7,4 GB/s für sequentielle Lesevorgänge und 7,0 GB/s für sequentielle Schreibvorgänge erhöht.
Für leseintensive Analyseanwendungen mit extrem großem Speicherbedarf bietet der S12DC-Controller von Phison eine anpassbare und erweiterbare Plattform für SSDs mit Kapazitäten bis 15,36 TB.
Als einzelne Einheit betrachtet können mit SSDs von Phison aufgebaute Speicherarrays einige entscheidende Vorteile für Datenanalyseanwendungen bieten:
-
-
- Die maßgeschneiderten PCIe-Gen4-SSD-Lösungen von Phison trennen Speicher von Rechenleistung und beseitigen die durch ältere Controller gesetzten Einschränkungen. Dies bedeutet, dass Trainings- und Kontrollsätze für maschinelles Lernen auf bis zu 1 PB skaliert werden können, ohne die Leistung zu beeinträchtigen.
- Die NVMe-SSD-Controller von Phison ermöglichen auch die dynamische Bereitstellung von Volumes über Hochleistungs-Ethernet-Netzwerke.
- Die Hochgeschwindigkeits-Speichercontroller mit geringer Latenz ermöglichen jedem GPU-Knoten den direkten, parallelen Zugriff auf die Medien. Dadurch können die Epochenzeiten von ML-Algorithmen bis zu zehnmal schneller werden.
-
Daten und Analysen entscheiden heute über den Erfolg oder Misserfolg eines Unternehmens. Jeder Aspekt des Geschäfts – einschließlich der Erschließung neuer Märkte, der Einführung neuer Produkte, der Optimierung der Lieferkette und der Generierung neuer Einnahmequellen – erfordert irgendeine Form von Analyse und Datenverwaltung. Und wie wir gesehen haben, darf die Rolle der IT-Infrastruktur im Allgemeinen und SSDs im Besonderen nicht ignoriert werden, wenn es darum geht, die Aktualität, Nützlichkeit und Zuverlässigkeit von Daten sicherzustellen.