Gran parte della giornata di un data scientist non viene dedicata ad addestrare i modelli di machine learning, ma a trovare e preparare i dati.
Ab Initio semplifica la catalogazione e la pulizia dei dati, nonché l'identificazione dei subset di dati corretti. Inoltre il software Ab Initio semplifica l'organizzazione dei dati in un ampio record contenente tutti gli input necessari per i modelli di machine learning. Ti aiutiamo ad aggiungere e capire nuovi dati e a eseguire il join di tutti i dataset in un record voluminoso.
Estrarre dati indifferenziati da un data lake di più petabyte è come cercare una goccia d'acqua in mezzo all'oceano.
Il data lake Hadoop di una banca internazionale somigliava a un oceano sterminato. In teoria, le informazioni erano disponibili con una semplice query, ma la realtà era ben diversa: estrarre informazioni da un sistema del genere era una vera sfida.
L'azienda impiegava diversi strumenti di reporting, ognuno dei quali era compatibile con dati in formati diversi, ma non con i formati Hadoop. Inoltre, i report generati per clienti specifici richiedevano la ricerca di dati in diverse fonti, il che costringeva gli operatori ad effettuare ricerche manuali all'interno di svariati petabyte di dati. Una situazione insostenibile. Gli strumenti di reporting della banca erano stati ideati originariamente per attingere alle informazioni direttamente, risalendo alle fonti dei dati; una soluzione che aveva funzionato quando la banca era più piccola e gestiva una quantità di dati limitata. Con la crescita aziendale, però, la banca si era trovata costretta a costruire un enorme data lake e a trasferirci tutti i dati. Il problema era che i vecchi strumenti di reporting non erano in grado di gestire la modifica del formato.
A questo punto entrò in gioco Ab Initio.
Il problema della banca era che gli svariati petabyte di dati che gestiva erano indifferenziati. Con il software Ab Initio, invece, i suoi analisti riuscirono subito a sviluppare delle regole per trovare e filtrare i dati velocemente: il nuovo sistema era in grado di identificare le esigenze di ciascuno strumento di reporting, recuperare i dati dal data lake e farli apparire come se provenissero dalla fonte che lo strumento si aspettava. Cercare una goccia d'acqua nell'oceano non era più un'impresa impossibile, né tanto meno fare in modo che venisse recapitata al posto giusto.
Ab Initio aiutò la banca anche a generare dati da diversi elementi del data lake. Ora, infatti, gli analisti potevano sviluppare regole aggiuntive per stabilire quale formato le tabelle dovessero avere per essere compatibili con un determinato strumento di reporting, eseguire i collegamenti necessari sui dati indifferenziati, popolare le tabelle e inviarle agli strumenti di reporting esattamente nel formato che questi si aspettavano. Improvvisamente quell'enorme data lake divenne utile, grazie ad Ab Initio. Ecco perché Hadoop era sulla bocca di tutti!
Certo, la banca avrebbe potuto soddisfare le sue esigenze immediate con i database tradizionali piuttosto che con Hadoop. Tuttavia, pianificando a lungo termine, la banca sapeva che presto avrebbe dovuto gestire molti petabyte di dati e il costo dei database tradizionali sarebbe diventato proibitivo. In confronto, continuare ad espandere dei cluster Hadoop era molto più economico. Affidandosi oggi ad Ab Initio per migliorare le funzionalità del suo data lake, la banca si assicurava il successo e la redditività di domani.
Per gestire svariati petabyte di dati serve un data lake enorme, ma un data lake è utile solo se i dati possono essere trovati e utilizzati facilmente. Grazie ad Ab Initio, tutto questo è possibile.