Datenwissenschaftler verbringen den Großteil ihres Arbeitstages nicht etwa mit dem Training von Modellen für maschinelles Lernen, sondern damit, die richtigen Daten zu finden und aufzubereiten.
Mit Ab Initio ist es ganz einfach, Daten zu katalogisieren, zu bereinigen und geeignete Datenteilmengen zu bestimmen. Außerdem vereinfacht die Ab Initio-Software die Organisation der Daten in einen breiten Datensatz, der die erforderlichen Eingaben für die Modelle für maschinelles Lernen enthält. Wir unterstützen Sie beim Hinzufügen neuer Daten, Verstehen Ihrer vorhandenen Daten und Zusammenführen von Datasets zu einem großen Datensatz.
Undifferenzierte Daten aus einem mehrere Petabyte umfassenden Data Lake zu extrahieren, ist ungefähr so kompliziert, wie einen ganz bestimmten Wassertropfen im Meer zu finden.
Bei einer global tätigen Bank war der Hadoop Data Lake weniger ein Datensee als ein Datenmeer. Theoretisch waren die Informationen über eine einfache Abfrage verfügbar, doch in der Praxis sah es ganz anders aus. Informationen aus ihrem Datenmeer abzurufen, war problematisch.
Die verschiedenen Berichtswerkzeuge erwarteten die Daten in verschiedenen Formaten (und konnten keine Hadoop-Formate lesen). Für Berichte, die für spezifische Kunden generiert wurden, mussten Daten aus verschiedenen Quellen abgerufen werden. Der Versuch, manuell mit Petabytes an Daten zu arbeiten, war ähnlich, wie das Meer leer trinken zu wollen. Ursprünglich hatten die Berichtswerkzeuge Informationen direkt aus den Originaldatenquellen extrahiert. Das funktionierte, solange die Bank noch kleiner war und viel weniger Daten hatte. Jetzt war für die Datenverwaltung ein riesiger Data Lake nötig, und die Bank hatte alle Daten in ihn migriert. Aber die Berichtswerkzeuge konnten nicht mit dem geänderten Format umgehen.
Hier kam Ab Initio ins Spiel.
Die Bank arbeitete mit Petabytes undifferenzierter Daten. Mit Ab Initio-Software konnten die Analysten schnell Regeln entwickeln, um die Daten zügig zu finden und zu filtern. Ab Initio konnte für jedes Berichtswerkzeug ermitteln, was das Werkzeug brauchte, die Daten aus dem Data Lake abrufen und sie so darstellen, als kämen sie aus der Quelle, die das Werkzeug erwartete. Die Analysten konnten den Data Lake nach jenem einzelnen Wassertropfen durchsuchen und diesen an das richtige Ziel bringen.
Als Daten aus mehreren Datenelementen im Data Lake generiert werden mussten, kam Ab Initio erneut zu Hilfe. Die Analysten konnten zusätzliche Regeln entwickeln, um die Form der gewünschten Tabellen festzulegen, die entsprechenden Zusammenführungen von undifferenzierten Daten zu bewerkstelligen, die Tabellen zu füllen und sie dann in die Berichtswerkzeuge einzuspeisen, die die Daten in genau diesem Format brauchten. Auf einmal war der riesige Data Lake nützlich, und Hadoop rechtfertigte den Hype um seine Technologie – dank Ab Initio.
Natürlich hätte die Bank ihre unmittelbaren Anforderungen auch mit herkömmlichen Datenbanken statt mit Hadoop erfüllen können. Doch da sie langfristig plante, wusste sie, dass sie in Kürze viele Petabytes an Daten bewältigen musste. Herkömmliche Datenbanken würden schon bald unerschwinglich sein. Die Hadoop-Cluster konnten jedoch auch künftig relativ kostengünstig erweitert werden. Dank Ab Initio verfügt die Bank jetzt über einen funktionierenden Data Lake, sodass die Weichen für ein weiterhin erfolgreiches und rentables Geschäft gestellt sind.
Um Petabytes an Daten zu verwalten, ist ein Data Lake von der Größe eines Meeres nötig. Ein solcher Data Lake taugt nur dann etwas, wenn die Daten einfach zu finden und zu nutzen sind. Dank Ab Initio ist genau das der Fall.