Liberare il valore dei dati aziendali con la AI generativa open source

Introducendo sul mercato un nuovo AMP (Applied ML Prototype) open source, Cloudera vuol aprire alle aziende una strada accessibile per sviluppare applicazioni di AI generativa per l’impresa esenti da “allucinazioni” e capaci di evitare l’esposizione dei dati enterprise a rischi di privacy e violazioni

In quest’era d’intensa evoluzione tecnologica dell’informatica, le imprese più competitive e innovative cercano di sfruttare al meglio il valore del proprio patrimonio di dati, estraendo insight che le aiutano a migliorare velocemente processi, prodotti, servizi, in rapporto a ciò che i loro utenti finali realmente richiedono.

Nel farlo, però, oggi incontrano almeno due particolari aree di criticità: da un lato trovare soluzioni che eliminino le “isole informative” fornendo accesso unificato a dati distribuiti e frammentati in disparati sistemi IT dell’organizzazione, on-premise o nel cloud. Dall’altro, fare tesoro delle ultime innovazioni in materia di intelligenza artificiale generativa (GAI), ma senza incappare nelle dannose “allucinazioni” di un sistema come ChatGPT, talvolta capace di fornire risposte errate, prive di senso o fuori contesto, che, soprattutto in campo professionale, non sono accettabili. Inoltre, le imprese devono riuscire a sfruttare i vantaggi della AI generativa evitando, nell’integrazione e interazione con ChatGPT o applicazioni e servizi AI di terze parti, di esporre informazioni aziendali, dati dei clienti, dati personali, dati sensibili, a rischi di privacy e violazioni.

Limitazioni dei “large language models”

Per addestrare modelli LLM (large language model) come GPT4 si spende milioni di dollari, utilizzando enormi volumi di dati disponibili pubblicamente in rete su vari argomenti. Tali modelli non hanno però accesso alla knowledge base delle imprese o a fonti dati proprietarie, spiega Cloudera in un post sul proprio blog, quindi mancano della comprensione del contesto necessario per rispondere a specifiche domande aziendali.

Con l’obiettivo di aiutare a risolvere questo grosso problema, a giugno Cloudera ha pubblicato nel proprio catalogo online un nuovo APM (Applied ML Prototype) chiamato LLM Chatbot Augmented with Enterprise Data, e completamente basato su librerie, tecnologie e codice open source. L’APM, già pre-addestrato, è quindi utilizzabile da chiunque, e, in particolare, tutti i clienti Cloudera possono implementarlo nello spazio di lavoro CML (Cloudera Machine Learning), uno dei servizi dati di Cloudera Data Platform (CDP). Attraverso CML, le imprese hanno l’opportunità di sviluppare la propria applicazione AI usando un modello LLM open source e sfruttando direttamente i dati aziendali, perché il tutto può essere ospitato all’interno dell’organizzazione, senza pericolo di esporre la knowledge base verso servizi esterni. In questo modo, chiarisce Cloudera, possono beneficiare della AI non solo i data scientist e i team ML, ma anche tutti gli sviluppatori e le LOB (line of business) che lavorano in azienda.

Piattaforme dati per dominare un’IT ibrida e multi-cloud

L’altro problema, si diceva, è il controllo, la governance dei dati in un mondo IT che sta diventando sempre più ibrido e multi-cloud, e dove la portabilità dei workload aziendali senza problemi di “lock-in”, quindi di dipendenza tecnologica da una specifica architettura cloud, si rivela un fattore fondamentale per il successo di qualsiasi iniziativa digitale. Su questo tema, in un post sul blog aziendale, David Moxey, CMO di Cloudera, ha richiamato l’attenzione su una previsione di Gartner, secondo cui “Entro il 2026, il 90% degli strumenti e delle piattaforme di gestione dei dati che non riescono a supportare le funzionalità multi-cloud e ibride sarà destinato alla dismissione entro tre anni”. E su questo tema Fabio Pascali, regional vice president Italy di Cloudera, in un incontro stampa a giugno a seguito dell’evento Evolve 2023 svoltosi a Roma, ha sottolineato fortemente la natura “unica e ibrida” di una piattaforma dati open source come CDP.

“Il fatto che CDP sia open source è il nostro punto di partenza, e rimarca che Cloudera continua ad affondare le radici della propria piattaforma su questo paradigma tecnologico” precisa Pascali. “La nostra piattaforma è open non solo perché è open source, ma anche perché può integrarsi con altri strumenti. Alcuni nostri clienti integrano la piattaforma Cloudera con strumenti di data visualization come Tableau, o la connettono con applicazioni di generative AI. CDP è una piattaforma end-to-end, nel senso che gestisce e governa l’intero ciclo di vita del dato, dall’edge al cloud, amministrando raccolta dati, data lake e data lakehouse, dati in movimento, machine learning e intelligenza artificiale, e rendendo possibile l’implementazione di una varietà di casi d’uso. È poi c’è, appunto, il carattere “hybrid” di CDP, che consente alla piattaforma di girare in un data center on-prem o nel cloud pubblico dei più noti hyperscaler, piuttosto che in ambienti multi-cloud. Abbiamo clienti che hanno workload on-premise ed altri carichi di lavoro gestiti in public cloud, ma in tutti questi scenari la piattaforma, la governance, i meccanismi di “data lineage” che indicano e documentano l’origine e il percorso dei dati, sono sempre gli stessi”.

Italia: ancora complesso sfruttare il valore dei dati in ambienti IT ibridi

Anche l’Italia figura tra i paesi interpellati in un sondaggio commissionato da Cloudera per la regione EMEA (Europa, Medio Oriente ed Africa), e condotto da Coleman Parkes Research, per valutare le opinioni di 850 decision maker IT responsabili nell’area dell’analisi dati e dei relativi strumenti. Stando ai risultati della ricerca, realizzata tra marzo e aprile 2023, in Italia, il 76% dei responsabili delle decisioni IT (ITDM) intervistati è d’accordo sul fatto che dover gestire dati in diversi ambienti cloud e on-premise rende complesso estrarne valore. Ciononostante, il 67% li archivia in un ambiente ibrido, usando sia sistemi on-premise e cloud privati, sia cloud pubblici, mentre il 68% ha adottato un modello multi-cloud, operando con due o più hyperscaler.

Solo l’1% ha “rimpatriato” i dati in sede negli ultimi dodici mesi, ma il 78% prevede di farlo per alcune tipologie di dati nei prossimi 36 mesi. I principali timori su migrazione e spostamento di altri dati in cloud sono legati a preoccupazioni come la conformità (59%), il cloud lock-in (53%), la complessità e integrazione dell’IT (50%), i problemi di prestazioni nell’elaborazione di grandi volumi di dati in tempo reale (49%). Nel complesso, emerge che i silos di dati continuano a rappresentare una sfida per molte organizzazioni, con il 58% degli ITDM che afferma che i dati isolati impediscono alla loro impresa di prendere decisioni in tempo reale.

Per quanto attiene al fenomeno del rimpatrio dei dati all’interno dell’organizzazione, le imprese, ha chiarito Pascali, possono decidere di riportare alcuni dati di nuovo on-premise per far fronte a problemi di governance, sovranità, e anche di costi. E specie quando il compito è gestire anche workload che girano in ambienti multi-cloud “una delle maggiori sfide per le aziende è ottenere una visione globale della spesa per l’infrastruttura e i servizi” ha aggiunto il manager.

Da questo punto di vista, proprio per fornire uno strumento affidabile di governance finanziaria allineato con il paradigma FinOps, sempre a giugno Cloudera ha annunciato la disponibilità di Cloudera Observability per tutti gli utenti di CDP in ambienti cloud pubblici o privati. La soluzione aumenta la visibilità sui workload e l’utilizzo delle risorse, fornendo funzionalità automatiche di controllo e ottimizzazione dei costi in ambienti cloud ibridi, che aiutano a evitare sforamenti dei budget e a migliorare le performance dei servizi.

Liberare il valore dei dati aziendali con la AI generativa open source

Limitazioni dei “large language models”

Piattaforme dati per dominare un’IT ibrida e multi-cloud

Italia: ancora complesso sfruttare il valore dei dati in ambienti IT ibridi

Modulo di contatto