Nvidia, dopo anni di studio, rilascia una demo di un semplice simulatore di guida in realtime con una grafica generata completamente in AI (Intelligenza Artificiale). Si tratta di una rivoluzione nel mondo video ludico?

Ad oggi, ogni mondo virtuale richiede la modellazione di ogni singolo elemento per essere creato. Personaggi, oggetti, palazzi, alberi, suppellettili ecc devono essere costruiti partendo da zero con conseguente dispendio di energie, risorse umane e non. 

Con questo concetto in mente, i ricercatori Nvidia hanno realizzato una rete neurale per rendere gli ambienti 3D in tempo reale. In soldoni, questo studio utilizza modelli appresi automaticamente da un video reale per eseguire il rendering degli oggetti quali edifici, alberi e veicoli ecc. offrendo scene interattive sulla base di luoghi del mondo reale e la possibilità di creare rapidamente mondi virtuali per videogame, automotive, architettura, robotica e realtà virtuale.

3cde2fc4e64e2f841b63c5b2ef82afc5.jpg

(a sinistra il video reale, a destra la demo  AI-generated - credit Nvidia)


Questo studio è stato eseguito da Bryan Catanzaro, vice presidente di Applied Deep Learning Research di NVIDIA

"NVIDIA per 25 anni a inventato nuovi modi per generare grafica interattiva, e questa è la prima volta la quale siamo in grado di farlo con una rete neurale” [...] "Le reti neurali - modelli specificamente generativi - cambieranno in base ai cambiamenti della grafica creata. Ciò consentirà agli sviluppatori di creare nuove scene in una frazione del costo tradizionale"

Il risultato della ricerca è un semplice gioco di guida che permette ai partecipanti di navigare in una scena urbana. Tutti i contenuti sono resi in modo interattivo usando la rete neurale e trasferiti in un motore grafico tradizionale, in questo caso Unreal Engine 4.  In più, la demo utilizza una singola GPU, la Titan V  (a dire il vero il top della schede video di casa Nvidia con un costo che si aggira intorno ai 3000 dollari...) 

Un'altra peculiarità della rete neurale è la gestione della scena; "impara" a modellare il mondo, compreso l'illuminazione, i materiali e le loro dinamiche e può facilmente modificare, rimuovere o aggiungere oggetti, Il tutto grazie alla natura completamente sintetica della scena generata.

La capacità di modellare e ricreare le dinamiche del nostro mondo visivo è essenziale per la costruzione di agenti intelligenti”, scrivono i ricercatori nel loro documento [...]“A parte gli interessi puramente scientifici, l'apprendimento di sintetizzare continue esperienze visive ha una vasta gamma di applicazioni nella visione artificiale, robotica e della computer grafica

"Il sistema di Nvidia genera grafica con pochi passaggi. In primo luogo, i ricercatori devono raccogliere dati di formazione, che in questo caso sono stati presi da dataset open source utilizzati per la ricerca di guida autonoma. Questo filmato viene quindi segmentato, il che significa che ogni frame è suddiviso in diverse categorie: cielo, auto, alberi, strada, edifici e così via. Una rete generativa contraddittoria viene quindi addestrata su questi dati segmentati per generare nuove versioni di questi oggetti"  (fonte theverge.com di  James Vincent)

"La struttura del mondo viene creata tradizionalmente", spiega Catanzaro, "l'unica cosa che l'intelligenza artificiale genera è la grafica" Aggiunge che la demo è di base ed è stata creata da un singolo ingegnere. "È un proof-of-concept piuttosto che un gioco divertente da giocare".

93cea8078f039550e8359a8715c48d4e.png

(In alto a sinistra la segmentation map; in alto a destra pix2pixHD; in basso a sinistra COVST; in basso a destra, Nvidia’s system, vid2vid. credit: Nvidia)

Quindi, molto probabilmente, Nvidia mette sul piatto della bilancia un sistema in grado di rivoluzionare il mondo della grafica oltre modo...

"Per creare questo sistema gli ingegneri hanno dovuto affrontare una serie di sfide, la più grande delle quali era la permanenza dell'oggetto. Il problema è che se gli algoritmi di deep learning stanno generando la grafica per il mondo a una velocità di 25 fotogrammi al secondo, come fanno a mantenere gli oggetti tutti uguali? Catanzaro afferma che questo problema significava che i risultati iniziali del sistema erano "dolorosi da guardare" poiché i colori e le trame "cambiavano ogni fotogramma" [...] La soluzione era quella di dare al sistema una memoria a breve termine, in modo che potesse confrontare ogni nuova con inquadratura quella precedente, cercando di prevedere cose, come il movimento ad esempio, all'interno di queste immagini e creare nuovi fotogrammi coerenti con ciò che appare sullo schermo. Tuttavia, tutto questo calcolo è costoso, e quindi, la demo gira a 25 frame al secondo" (fonte theverge.com di  James Vincent)

In occasione della conferenza NeurIPS 2018 a Montreal, verrà mostrata la demo completa.


Per ulteriori informazioni, Developer News Center post. Per approfondire tutte le squisitezze tecniche vedi QUI