AI generativa multimodale: l’evoluzione continua (e prepara la strada alla AGI)

A meno di due anni dall’introduzione sul mercato del chatbot ChatGPT, l’intelligenza artificiale sta rapidamente evolvendosi, e sviluppando capacità multisensoriali. La AI e la GenAI multimodali promettono di migliorare la versatilità di utilizzo di queste tecnologie in molti campi applicativi

Leggi l'articolo su ZeroUno

La lettera “o” in GPT-4o, il modello di intelligenza artificiale annunciato da OpenAI lo scorso maggio, significa “omni”, e indica un nuovo, sostanziale progresso tecnologico verso la AI generativa multimodale. Rispetto alle precedenti versioni di GPT, numerosi video esemplificativi sulla pagina web dedicata mostrano l’abilità impressionante di GPT-4o nel conversare vocalmente con le persone: il modello risponde in tempo reale, e con estrema naturalezza, a input vocali e visivi. Percepisce il tono di voce degli interlocutori, interpreta gesti ed espressioni facciali, e, a seconda di ciò che sente e vede, è in grado di esprimere emozioni, cantare, generare frasi scherzose o risate.

GPT-4o non è l’unico: anche Gemini, il modello multimodale di Google, ricevendo come input dal prompt, ad esempio, un’immagine di biscotti è in grado di generare come risposta vari tipi di suggerimenti, o ricette. ImageBind, l’AI model di Meta, fa cose analoghe, ma si caratterizza per la facoltà di associare contemporaneamente dati in sei modalità differenti: oltre a testo, audio, video, sfrutta i dati di profondità, temperatura, posizione, accelerazione, direzione, registrati da sensori e unità di misura inerziali (IMU – inertial measurement unit). ImageBind, precisa Meta, è in grado di “fornire alle macchine una comprensione olistica, che collega gli oggetti di una foto con il suono che emettono, la loro forma tridimensionale, la percezione di quanto sono caldi o freddi, o di come si muovono”.

GenAI multisensoriale, impara come un umano e comprende meglio il contesto

A nemmeno due anni di distanza dal lancio, il 30 novembre 2022, di ChatGPT (Chat Generative Pre-Trained Transformer), un chatbot unimodale (text-based) addestrato con la tecnica dell’apprendimento per rinforzo con feedback umano (RLHF – reinforcement learning from human feedback), il mondo si trova ora catapultato nell’era della AI generativa multimodale. Questa GenAI multisensoriale, acquisendo ed elaborando non solo testo, ma una molteplicità di dati e stimoli generati dall’interazione con l’utente e l’ambiente circostante, potenzia la propria abilità di comprendere il contesto in cui vengono poste le domande, e riesce a dare risposte più precise e pertinenti. Inoltre, apprendendo da svariate fonti dati, e da video che riproducono reali esperienze umane, il modello riesce a imitare più fedelmente le facoltà cognitive di una persona, il suo modo di percepire e interpretare attraverso i sensi il mondo fisico. L’allargamento prospettico delle capacità cognitive orienta poi il futuro sviluppo della AI multimodale verso la creazione di modelli di intelligenza artificiale generale (AGI – artificial general intelligence).

Con i LWM cambio di paradigma e nuove applicazioni

Il potere dirompente della transizione, dai modelli linguistici di grandi dimensioni (LLM – large language model) incentrati sul testo, verso la GenAI multimodale è esplicitato da Fabio Moioli, executive search & leadership advisor della società di consulenza Spencer Stuart. Moioli chiama questi modelli “large world models” (LWM). Modelli che fondono mondo digitale e fisico, e rappresentano un cambio di paradigma nella AI. L’integrazione di percezioni visive ed acustiche con dati rilevati tramite scanner termici, radar, infrarossi, dispositivi IoT (Internet of Things) o altri device, spiega Moioli in un articolo comparso a inizio 2024 su Forbes Technology Council, permette di attivare processi decisionali informati in tempo reale. Le applicazioni dei LWM, sottolinea, sono ampie e promettenti: ad esempio, integrando una vasta gamma di fonti dati, come storie cliniche dei pazienti, dati biometrici real-time, dati genomici, fattori ambientali, i LWM potrebbero rivoluzionare il settore dell’assistenza sanitaria, applicando un approccio olistico che conduce a formulare diagnosi più accurate, e piani di trattamento personalizzati. I LWM arriverebbero addirittura a predire problemi di salute prima che diventino critici, analizzando schemi nei dati che i metodi tradizionali possono aver trascurato.

Anche Leonid Zhukov, direttore del Global AI Institute della società di consulenza Boston Consulting Group (BCG), in un’intervista, parla dei modelli multimodali di grandi dimensioni (LMM – large multimodal model) come di sistemi di GenAI capaci di andare oltre i limiti dell’AI generativa tradizionale, basata su LLM, e generare incrementi di efficienza nelle differenti organizzazioni. Nel settore manifatturiero, i LMM possono essere addestrati utilizzando i segnali digitali generati da attrezzature e macchinari, i dati acquisiti dai sensori IoT e i dati relativi alle transazioni dei clienti, per ottenere in automatico un quadro completo dello stato di salute di una data impresa. Nelle attività di manutenzione predittiva e ottimizzazione degli impianti, i LMM possono analizzare video, suoni, vibrazioni sulle linee di produzione, per identificare anomalie e segni di deterioramento che altrimenti passerebbero inosservati.

Vantaggi e sfide della GenAI multimodale

Sondando qualche opinione tra gli esperti del mondo aziendale, emergono i numerosi vantaggi della AI multimodale, ma anche altri aspetti e sfide da affrontare per implementarla: “con l’avvento di questi modelli dovremmo aspettarci un significativo avanzamento nel campo della AI” commenta Dmytro Shevchenko, un data scientist che lavora in Aimprosoft, società di sviluppo software. “L’approccio multimodale aumenta l’abilità dei sistemi AI di eseguire compiti complessi, che richiedono comprensione e ragionamento su differenti tipi di input, migliorando così la loro versatilità e applicabilità in vari ambiti”. Ma, al di là dei modelli multimodali, altri trend tecnologici giocano un ruolo significativo nell’evoluzione della AI. “Ad esempio, la creazione di dati sintetici di alta qualità può integrare i dati del mondo reale e indirizzare i problemi di scarsità di dati. Con l’apprendimento per trasferimento, abbiamo l’opportunità di sfruttare la conoscenza di un dominio per migliorare le prestazioni in un altro dominio, riducendo la necessità di disporre di ampi dataset etichettati. Prenderei seriamente in considerazione anche l’apprendimento federato, che consente di addestrare i modelli su dispositivi decentralizzati, mantenendo la privacy e la sicurezza dei dati. E, naturalmente, il quantum computing. Migliorando la potenza di calcolo per gestire modelli più complessi e dataset più ampi, l’umanità può spingersi oltre i confini di ciò che oggi l’intelligenza artificiale può ottenere” aggiunge l’esperto.

A livello di sfide, se i progressi nell’hardware sono essenziali per supportare le richieste computazionali dei modelli LLM e multimodali, sul versante software “dovremmo migliorare gli algoritmi per potenziare il training dei modelli, ottimizzare le pipeline di elaborazione dati e potenziare la scalabilità dei sistemi AI. Inoltre, ritengo essenziale sviluppare framework più robusti, in grado di gestire con efficienza i dati multimodali e garantire la compatibilità con le tecnologie esistenti”. Un’altra sfida riguarda la preparazione di dataset di alta qualità, diversificati e rappresentativi: “Parlo della raccolta ed etichettatura dei dati, indirizzando i bias, garantendo la privacy e mantenendo l’integrità degli stessi. La generazione di dati sintetici realistici e contestualmente accurati è un’altra area chiave su cui dovremmo concentrarci. Servono infatti tecniche sofisticate per creare dati in grado di simulare con efficacia scenari del mondo reale, e garantire che i modelli addestrati sui dati sintetici funzionino a dovere” conclude Shevchenko.

Su una linea di pensiero analoga, Nick Rioux, cofondatore e CTO di Labviva, piattaforma che connette ricercatori e scienziati con i loro fornitori, sottolinea che la sfida principale per la AI è la qualità dei dati: “Molti dei dati fondamentali che un sistema di intelligenza artificiale utilizza per stabilire una baseline, o comprendere la realtà – spiega Rioux – sono imprecisi, mal governati e portano al fallimento dei modelli addestrati. Per garantire il ritorno dell’investimento di qualsiasi modello predittivo AI, le organizzazioni devono adottare una solida governance, processi DQM, per la gestione della qualità dei dati, e tecnologie avanzate”.

Jacob Kalvo, esperto di cybersecurity, nonché cofondatore e CEO della società Live Proxies, fornitrice di soluzioni proxy per il mercato B2B e B2C, tra le criticità da indirizzare per elevare la AI al prossimo livello, ribadisce che, lato software, la preparazione dei dati resta una delle sfide più grandi: “Partire da dati puliti, imparziali e rappresentativi è essenziale per un adeguato addestramento di modelli AI efficaci”.

AI generativa multimodale: l’evoluzione continua (e prepara la strada alla AGI)

Modulo di contatto