Scality RING fördert KI-gestützte Genomforschung im medizinisch-biologischen Labor von SeqOIA mit Petabyte-Data-Lake
Juni 2024 von Marc Jacob
Scality, ein weltweit Anbieter von cybersicherem Storage für das KI-Zeitalter, gab heute die großangelegte Bereitstellung einer Kundenumgebung seiner dezentralen File- und Object-Storage-Lösung RING bekannt. Ziel dieser Initiative ist es, den Daten Lifecycle im Genomsequenz-Forschungsinstitut SeqOIA Médecine Génomique zu optimieren und zu beschleunigen. Dies ist die jüngste in einer Reihe von Kunden-Umgebungen, bei denen RING als grundlegendes Analytics- und KI-Data-Lake-Repository für Unternehmen im Gesundheits-, Finanz- und Tourismussektor weltweit eingesetzt wird.
SeqOIA wurde im Rahmen von Médecine Génomique 2025, einer französischen Initiative für Genom-Medizin, ausgewählt. Es ist eines von zwei nationalen Forschungsinstituten, die die Ganzgenomsequenzierung in das französische Gesundheitssystem integrieren, um Patienten mit seltenen Krankheiten oder Krebs zu helfen.
SeqOIA will mit Scality RING genetische Daten von mehreren Petabyte aggregieren. Ziel ist es, Krankheiten besser zu charakterisieren sowie Patienten genetisch zu beraten und zu behandeln. Während des gesamten Daten Lifecycles ermöglicht RING den Biologen von SeqOIA über Tausende Computing Nodes effizienten Zugriff auf fast 10 PB an Daten – von der Roherfassung bis zur aufbereiteten Auswertung. Im Vergleich zu All-Flash-File-Storage geschieht dies wesentlich schneller, bei drei- bis fünffacher Kosteneinsparung.
„RING ist das Repository für 90 % unserer Genom-Datenpipeline, und wir erwarten in den kommenden Jahren Bedarf für weiteres Wachstum“, so Alban Lermine, IS and Bioinformatics Director bei SeqOIA. „In Zusammenarbeit mit Scality haben wir unsere Anforderungen an die Analyseverarbeitung durch eine zweistufige Storage-Lösung mit All-Flash-Zugriff auf temporäre Hot-Datasets und langfristigem persistentem RING-Storage gelöst. Wir sind davon überzeugt, dass RING die riesigen Mengen an erfolgskritischen Daten schützen wird, mit deren Hilfe wir die Versorgung onkologischer und anderer Patienten verbessern können.“
Scality RING unterstützt KI-Data-Lakes für weitere datenintensive Branchen:
Kunden berichten von TCO-Einsparungen von 59 %, einer Steigerung des ROI über 5 Jahre um 366 % und einer Steigerung der Endbenutzerproduktivität um 34 %.
US-amerikanischer Versicherungsanbieter:
Scality RING ermöglicht KI-gestützte Analysen bei der Bearbeitung von Versicherungsansprüchen
Einer der größten börsennotierten Privatkundenversicherer in den USA hat RING als bevorzugtes KI-Data-Lake-Repository für die Analyse und Bearbeitung von Versicherungsansprüchen ausgewählt. Der Dienstleister hat sein HDFS (Hadoop File System) durch RING ersetzt.
Dank einer standortübergreifenden RING-Bereitstellung zur Unterstützung von Standort-Failovers konnte der Kunde dreifache Platz- und Kosteneinsparungen sowie höhere Verfügbarkeit erzielen.
Weltweit tätiges Touristikunternehmen:
1 PB pro Tag für den weltweiten Reiseverkehr
Ein multinationaler IT-Serviceanbieter, dessen Technologie die globale Reise- und Touristikbranche unterstützt, nutzt Scality RING als Basis seines zentralen Data Lake. RING unterstützt 1 PB neue Protokolldaten, die täglich erfasst werden. Diese Daten werden in einem Data Lake gespeichert, der jeweils nur die Daten der letzten 14 Tage enthält. RING muss daher täglich 1 PB der ältesten Daten löschen und gleichzeitig Lesezugriffe von mehreren Dutzend GB/s unterstützen, um die Datenanalyse durch einen Cluster von Splunk-Indexern zu ermöglichen.
Um Data Lakes bereitzustellen, benötigen diese Unternehmen zuverlässige und bewährte Lösungen mit langjähriger Erfolgsbilanz in Bezug auf Performance und Data Protection für große Datenmengen. Für die Verarbeitung von KI-Workloads werden RING-Repositorys auf intelligent gestaffelte Weise mit All-Flash-Dateisystemen sowie mit führenden KI-Tools und Analyseanwendungen wie Weka.io, HPE Pachyderm, Cribl, Cloudera, Splunk, Elastic, Dremio und Starburst kombiniert. Mit strategischen Partnern wie HPE und HPE GreenLake kann Scality verwaltete KI Data Lakes bereitstellen.
Zuverlässig und bewährt für KI-gestützte Data Lakes im Petabyte-Maßstab
Schnelle Datenverarbeitung ist für jede KI-Bereitstellung unerlässlich. RING ist jedoch die einzige Lösung, die folgende Vorteile bei der Unterstützung erstklassiger Infrastrukturen für riesige Datenmengen bietet:
• Kosteneinsparungen und Steigerung des ROI über 5 Jahre um 366 %
• Bestes Preis-Leistungs-Verhältnis durch optimale Nutzung von Flash und HDD
• Rundumschutz mit CORE5-basierter Ausfallsicherheit bei Cyberangriffen
„Die Entscheidung für RING war für uns bei SeqOIA goldrichtig. RING bietet das komplette Funktionspaket für KI-gestützte Data Lakes“, erklärt Alban Lermine. „RING ist das sicherste, am stärksten skalierbare und kostengünstigste Repository für unstrukturierte Daten im Petabytebereich auf dem Markt. Wir können Daten aus mehreren Datenquellen mit Dutzenden von GB/s erfassen, aufbereiten und analysieren.“
RING S3 Object Storage for AI bietet zahlreiche Alleinstellungsmerkmale:
· RAG-Zugriff (Retrieval-augmented Generation) wird mithilfe von Retrieval- und generativ-gestützter Modelle der künstlichen Intelligenz ermöglicht.
• Mithilfe integrierter Hybrid-Cloud-Funktionen ist RING in der Lage, Daten durch Duplikation auf externe Public-Cloud-Services zu replizieren und ihren Eigenschaften entsprechend zu staffeln. Diese Daten können anschließend mit gängigen KI-Tools in AWS, Azure und Google integriert werden.
• Hybrid- oder All-Flash-Storage-Server nach Wahl des Kunden werden unterstützt.
• CORE5-basierte Ausfallsicherheit bei Cyberangriffen bietet Rundumschutz vor Ransomware.
Dank dieser Funktionen erhalten Kunden eine zuverlässige Data-Lake-Storage-Lösung, die mehrere Phasen der Datenpipeline abdeckt – von der Datenerfassung über die Bereinigung und Analyse bis zur Entwicklung und zum Training von Modellen. RING bietet Unternehmen hochperformanten Immutable Data Storage zu einem wirtschaftlichen Preis an. Damit können Dutzende oder gar Hunderte von Petabyte an KI-Daten langfristig gespeichert werden.