Nell’estate del 2021, OpenAI ha chiuso silenziosamente il suo team di robotica, adducendo che i progressi erano ostacolati dalla mancanza di dati appropriati. Dati necessari per addestrare i robot a muoversi e pensare utilizzando l'intelligenza artificiale (AI). A metà marzo, tre dei primi ricercatori di OpenAI hanno annunciato che la loro startup Covariant, fondata nel 2017, aveva risolto questo problema e prodotto un sistema che combinava le capacità di ragionamento di grandi modelli linguistici con la destrezza fisica di un robot avanzato.
annuncio
Il nuovo modello, chiamato RFM-1, è stato addestrato utilizzando anni di dati raccolti da una piccola flotta di robot Covariant utilizzati da clienti come Crate & Barrel e Bonprix nei magazzini di tutto il mondo, oltre a testi e video da Internet. Il modello verrà rilasciato ai clienti Covariant nei prossimi mesi. L'azienda spera che il sistema diventi più potente ed efficiente nel tempo una volta messo in pratica.
“Non riesco a farlo bene”
Che cosa si può fare? In una demo all’inizio di marzo, i cofondatori di Covariant Peter Chen e Peter Appel hanno mostrato come gli utenti potrebbero stimolare il modello con cinque diversi tipi di input (prompt): testo, immagini, video, istruzioni del robot e metriche. Ad esempio, hanno mostrato al robot la foto di un contenitore pieno di attrezzature sportive e gli hanno chiesto di ritirare il pacco contenente le palline da tennis. Il robot può quindi afferrare l'oggetto, creare un'immagine di come apparirà il contenitore quando le palline da tennis saranno finite o creare un video che mostri come apparirà il robot completando l'attività, dalla prospettiva a volo d'uccello.
Se il modello prevede che non riuscirà ad afferrare correttamente l'oggetto, potrebbe dire: “Non riesco ad afferrare correttamente l'oggetto. Hai qualche consiglio?” Una risposta potrebbe consigliargli di utilizzare un certo numero di ventose sulle braccia per migliorare la presa, ad esempio otto invece di sei.
Si tratta di un grande passo avanti per i robot che possono adattarsi al loro ambiente utilizzando i dati di addestramento, piuttosto che il codice complesso e specifico per il compito che era alla base della precedente generazione di robot industriali, ha affermato Chen. È anche un passo verso luoghi di lavoro in cui i manager possono dare istruzioni nel linguaggio umano senza preoccuparsi delle limitazioni del lavoro umano: “Confeziona 600 lotti di pasta al peperoncino usando la seguente ricetta. Non fare pause!”
Sebbene i ricercatori di robotica abbiano già costruito semplici robot multimodali e li abbiano distribuiti nei laboratori, l’implementazione su larga scala del robot in grado di comunicare in molte modalità rappresenta un risultato impressionante per l’azienda.
Per battere i suoi concorrenti, Covariant deve raccogliere dati sufficienti affinché il robot possa essere utilizzato in natura, afferma Pinto. Verrà testato nei magazzini e nelle banchine di carico, interagendo costantemente con nuove istruzioni, persone, oggetti e ambienti. “I gruppi che formeranno buoni modelli saranno quelli che hanno accesso a grandi quantità di dati sui robot o sono in grado di generare tali dati”, afferma.
Dimostrazione del robot
Secondo Covariant, il modello ha una capacità di ragionare “simile a quella umana”, ma ha anche i suoi limiti. Durante la demo, che includeva uno streaming live del bot Covariant e una finestra di chat per comunicare con esso, Chen mi ha invitato ad assegnare un'attività al modello. Tuttavia, quando ho chiesto al robot di “rimettere la banana nella borsa della spesa n. 2”, ha avuto difficoltà a tornare sui suoi passi, finendo per raccogliere una spugna, poi una mela, quindi una varietà di altri oggetti prima di completare l'attività, che alla fine ha risolto. Con banane. “Non comprende il nuovo concetto, ma è un buon esempio: potrebbe non funzionare bene se non si dispone di dati di allenamento validi”, ha spiegato Chen.
Il nuovo modello dell'azienda incarna un cambiamento di paradigma che si sta verificando nel mondo della robotica. Invece di insegnare a un robot come funziona il mondo attraverso istruzioni come equazioni e simboli fisici, i ricercatori lo insegnano nello stesso modo in cui imparano gli umani: attraverso milioni di osservazioni. Il risultato, afferma Chen, “potrebbe fungere da cervello efficiente e altamente flessibile per risolvere qualsiasi compito robotico”.
È probabile che quest’anno il campo di gioco diventi più affollato per le aziende che utilizzano l’intelligenza artificiale per alimentare sistemi robotici più intelligenti. All’inizio di questo mese, la startup di robotica umanoide Figure AI ha annunciato una partnership con OpenAI, raccogliendo 675 milioni di dollari da giganti della tecnologia come Nvidia e Microsoft. Marc Raibert, fondatore di Boston Dynamics, ha recentemente lanciato un’iniziativa per integrare meglio l’intelligenza artificiale nella robotica. Ciò significa che i progressi nell’apprendimento automatico porteranno probabilmente anche a progressi nella robotica.
Addestra i robot con video creati appositamente
Tuttavia, alcune domande rimangono irrisolte. Se i grandi modelli linguistici continueranno ad essere addestrati su milioni di parole senza compensare gli autori di quelle parole, forse i modelli robotici verranno addestrati anche sui video senza pagare i loro creatori. Se i modelli linguistici creano allucinazioni e perpetuano pregiudizi, quali problemi simili potrebbero sorgere nella robotica?
Covariant porterà avanti lo sviluppo per il momento, poiché RFM-1 è progettato per l'apprendimento e il miglioramento continui. In definitiva, i ricercatori vogliono addestrare il bot con video generati dal modello stesso, una sorta di meta-apprendimento che causa molti grattacapi e solleva anche la questione di cosa succede se gli errori commessi dal modello si accumulano. Sfortunatamente, con l’attuale desiderio di avere più dati sull’addestramento, i ricercatori lo considerano quasi inevitabile. “Questa formazione diventerà realtà”, afferma Abel. “Quando ne parleremo di nuovo tra sei mesi, ne parleremo”.
(maggioranza)
“Pensatore incurabile. Appassionato di cibo. Studioso di alcol sottilmente affascinante. Difensore della cultura pop.”
More Stories
Smart Rings: l’orologio intelligente per il tuo dito
Il primo router di OpenWrt costa 100 euro
Diablo 4: La nave dell’odio