Genie de Google DeepMind est un modèle de fondation (Generative Interactive Environments) entraîné sur des vidéos non annotées. Utilisant une architecture ST-transformer et un modèle d'action latente, ce world model génère des mondes 2D jouables frame par frame. Il transforme croquis, images générées ou photographies en environnements interactifs. Idéal pour l'industrie du jeu vidéo, la simulation robotique et l'entraînement d'agents en Reinforcement Learning (RL), il supprime le besoin de moteurs physiques traditionnels.