Dne 24. listopadu se profesorka Li Fei-Fei ze Stanfordovy univerzity, zakladatelka World Labs, zúčastnila podcastového rozhovoru, ve kterém podrobně vysvětlila svou vizi prostoru inteligence a diskutovala o svých odlišných názorech na světové modely ve srovnání s Yannem LeCunem, bývalým hlavním vědcem společnosti Meta.
Divergentní přístupy k modelům světa
Li Fei-Fei a Yann LeCun jsou často považováni za představitele dvou odlišných škol v oblasti konstrukce světových modelů. LeCun preferuje, aby modely byly trénovány na abstraktních „implicitních reprezentacích“ světa, namísto obnovování každého jednotlivého pixelu. Na druhou stranu, model Marble, vyvinutý Li Fei-Fei, se snaží generovat explicitní reprezentace z abstraktních vnitřních reprezentací a jasně vykreslovat vizualizovaný 3D svět.
Fei-Fei nevnímá tyto dva přístupy jako antagonismus. Věří, že pro vytvoření univerzálního světového modelu budou nakonec potřebné jak implicitní, tak explicitní reprezentace. World Labs používá „cílené“ explicitní výstupy, protože jeho obchodní cíle směřují na kreativní profesionály v oblastech jako je vývoj her, vizuální efekty a architektonický design, kteří potřebují vizualizované a interaktivní výsledky ve 3D.
Technologické základy Marble
Li Fei-Fei také odhalila první produkt společnosti World Labs, Marble, a jeho technologickou základnu, známou jako „Model v reálném čase“ (RTFM). Na rozdíl od modelů, které generují čistě video, se Marble zaměřuje na konzistentní a trvalé generování 3D prostoru. Ten podporuje více modalit, včetně textu, obrázků, videa a hrubých 3D rozložení jako vstup, a snaží se udržet konzistenci objektů během procesu inferencí.
Limity současných jazykových modelů
Fei-Fei poznamenala, že současné velké jazykové modely (LLM) se učí pouze z obrovských množství textových dat. Ačkoli jazykové modely jsou impozantní, velké množství lidských znalostí není možné zachytit pouze pomocí jazyka. Pro skutečný pokrok k obecné umělé inteligenci musí AI překročit omezení textu a zažít fyzický svět skrze vizuální vnímání a akci. Proces učení je pro lidi inherentně embodied, přičemž interagují s okolním světem i bez použití jazyka a vnímají různé fyzikální aspekty jako světlo, dotyk, gravitaci a prostorové vztahy.
Schopnost AI porozumět fyzickému světu
Na otázku, zda současná AI skutečně „rozumí“ fyzickému světu, Fei-Fei uvedla, že většina generovaných videí, která ukazují pohyb vody či stromů ve větru, nevyplývá z výpočtů podle Newtonových zákonů, ale spíše z obrovských datových vzorů. I když AI může ukazovat určité pohybové zákony skrze data, aktuální architektury Transformerů prozatím neposkytly dostatečné důkazy pro abstrakce na úrovni Einsteinovy teorie relativity.
Budoucnost AI a prostorová inteligence
Fei-Fei je optimistická, že v průběhu následujících pěti let mohou nastat významné pokroky v AI ve schopnosti rozumět fyzickému světu. Představila vizi „multivesmíru“, kde by značné snížení překážek pro generování 3D obsahu umožnilo lidem snadno vytvářet nespočet paralelních světů, což by znamenalo nekonečné rozšíření lidských fyzických zkušeností a přetvořilo by oblasti jako je zábava, vzdělávání a vědecký výzkum.
Klíčové body rozhovoru
- Jazyk sám o sobě není dostatečný pro konstrukci obecné umělé inteligence (AGI), jelikož mnoho lidské inteligence, jako je prostorové uvažování, je nevědomé.
- Model Marble se od běžných video-generujících modelů liší schopností udržovat „konstantnost objektů“, což znamená, že ve vytvářeném světě objekty zůstávají nezměněny, i když se uživatel otáčí.
- Fei-Fei a její tým se snaží vytvořit „Model v reálném čase“, který by mohl vyžadovat pouze výkon jednoho H100 GPU, aby zajišťoval efektivní 3D prostorové uvažování.
- Důležitost prostorové inteligence spočívá v nutnosti propojit implicitní a explicitní reprezentace pro technologický pokrok.
Podle Fei-Fei by se budoucí AI neměly pouze chovat jako černá skříňka, ale měly by se stát „neuronovým prostorovým motorem“ pro vývojáře her, architekty a umělce, čímž se propojí deterministická pravidla tradičních fyzikálních motorů s kreativním potenciálem generativní AI.
Rozhovor se soustředil na snahu porozumět a implementovat prostorovou inteligenci ve vyvíjejících se AI systémech a na možnosti, které přináší kombinace jazykových a vizuálních paradigmat.






