Project Genie (Google Labs) : l’IA qui génère des mondes interactifs en temps réel

Google Labs a ouvert l’accès à Project Genie, une expérience qui donne un aperçu très concret d’un nouveau type d’IA : les world models (des modèles capables de simuler un environnement et de le faire évoluer quand on agit dedans).

L’idée est simple à comprendre : au lieu de générer une image ou une vidéo, Project Genie génère un monde navigable, qui “continue” de se construire en temps réel à mesure que vous avancez.

Project Genie, c’est quoi ?

Project Genie est un prototype web qui permet de créer, explorer et remixer des mondes interactifs.

Concrètement, vous décrivez un environnement et un personnage (et vous pouvez aussi partir d’images). Le système vous fait d’abord une prévisualisation, puis vous laisse explorer le monde généré.

Selon Google, l’expérience repose sur trois capacités :

World sketching : créer un monde à partir de texte et d’images, définir un personnage, et choisir votre manière d’explorer (marcher, rouler, voler, conduire…) ainsi que la vue (première personne, troisième personne, etc.).
World exploration : le monde est navigable, et le chemin se génère en temps réel selon vos actions.
World remixing : remixer des mondes existants à partir de leurs prompts, explorer une galerie, et télécharger une vidéo de votre exploration.

(Source primaire : annonce Google/DeepMind sur Project Genie)

À qui c’est disponible (et pourquoi c’est limité)

Pour l’instant, Project Genie est un prototype de recherche et l’accès est volontairement restreint.

D’après la documentation Google :

c’est disponible uniquement aux États-Unis
réservé aux abonnés Google AI Ultra
accessible à partir de 18 ans

Un détail très parlant : chaque exploration est limitée à 60 secondes. Ce n’est pas un “jeu complet”, c’est une démo courte pour tester le modèle et collecter du feedback.

(Source primaire : documentation Google Labs Help)

Pourquoi c’est important : les world models

Google DeepMind décrit un world model comme un système qui utilise sa compréhension du monde pour en simuler des aspects, afin que des agents puissent prédire :

comment un environnement va évoluer
comment leurs actions vont en modifier la trajectoire

Autrement dit : ce type de modèle ne sert pas seulement à “faire joli”. Il sert à raisonner dans un environnement, à tester des scénarios (“que se passe-t-il si… ?”), et potentiellement à entraîner des agents.

Dans son billet de recherche, DeepMind présente Genie 3 comme un “general purpose world model” capable de générer des environnements interactifs très variés. Ils indiquent notamment que le modèle permet une navigation en temps réel à 24 images/seconde en 720p, avec une cohérence qui tient plusieurs minutes (ce qui est un point difficile pour une génération image-par-image).

(Source primaire : blog Google DeepMind – Genie 3)

Ce que Project Genie montre déjà (sans marketing)

Même en version “prototype”, Project Genie rend tangible trois choses :

La génération interactive
On passe de “je regarde une vidéo générée” à “j’interagis avec un monde généré”. C’est un changement de catégorie.
La question du contrôle
Le problème n’est plus seulement la qualité visuelle, mais la capacité à garder :

une cohérence dans le temps
une réaction stable à des actions
une navigation utilisable

Le remix comme mode de création
Le fait de repartir d’un monde existant et d’en faire une variante est probablement l’une des manières les plus naturelles d’utiliser ce type d’outil : itérer vite sur une ambiance, un décor, une “expérience”.

Limites actuelles (et ce qu’elles révèlent)

Google reconnaît plusieurs limites, ce qui est plutôt sain (et utile pour comprendre où ça bloque techniquement) :

les mondes ne respectent pas toujours parfaitement les prompts, ni une physique “réaliste”
les personnages peuvent être moins contrôlables, avec de la latence
l’expérience est limitée à 60 secondes

Autre point important : Google précise que certaines capacités évoquées pour Genie 3 (par exemple des événements “promptables” qui changent le monde pendant l’exploration) ne sont pas encore intégrées dans Project Genie.

À quoi ça peut servir demain (au-delà de la démo)

Si ces modèles deviennent plus stables et plus longs (durée, cohérence, contrôle), on peut imaginer des usages concrets :

prévisualisation créative (décors, ambiance, storyboard interactif)
éducation/formation (mise en situation, scénarios simulés)
recherche en IA (environnements riches pour entraîner et tester des agents)

Il ne faut pas confondre “prototype” et “produit”, mais Project Genie montre une trajectoire : l’IA générative ne se limite plus à produire du contenu… elle commence à produire des espaces.

Sources primaires

Google Blog (DeepMind / Google Labs) — Project Genie: Experimenting with infinite, interactive worlds : https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/
Google DeepMind Blog — Genie 3: A new frontier for world models : https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/
Google Labs Help — Get started with Project Genie : https://support.google.com/labs/answer/16875695?hl=en