Google DeepMind a dévoilé Genie 3~? un

Google DeepMind a dévoilé Genie 3, un « modèle de monde » d’IA avancé qui génère des simulations 3D interactives en temps réel à partir de texte ou d’images, avec une physique cohérente.

Genie 3 de Google DeepMind est un « modèle de monde » avancé basé sur l’IA qui génère des simulations 3D interactives en temps réel à partir de textes ou d’images, fonctionnant à 24 images par seconde en 720p avec une physique cohérente. Entraîné sur de vastes ensembles de données, il permet de créer des environnements dynamiques pour l’exploration et la manipulation. Cette avancée révolutionne la robotique, la réalité virtuelle et l’éducation, et constitue un pas en avant vers l’IA générale.

Google DeepMind ou simplement DeepMind est un laboratoire de recherche britannique-américain spécialisé dans l’intelligence artificielle (IA), filiale d’Alphabet Inc. Fondé au Royaume-Uni en 2010, il a été racheté par Google en 2014 et a fusionné avec la division Google Brain de Google AI pour devenir Google DeepMind en avril 2023. Google DeepMind est responsable du développement de Gemini (la famille de grands modèles de langage de Google) et d’autres outils d’IA générative, tels que le modèle de conversion de texte en image Imagen et le modèle de conversion de texte en vidéo Veo.

En décembre 2024, Google DeepMind a dévoilé Genie 2, un modèle d’IA capable de créer des mondes 3D jouables à partir d’une simple invite. Genie 2 serait une avancée significative en termes d’échelle. De plus, Genie 2 pourrait créer des environnements riches et variés pour les agents d’intelligence artificielle (IA), et leur permettre d’y agir. DeepMind pense que Genie 2 est la voie à suivre pour résoudre un problème structurel de formation d’agents incarnés en toute sécurité, tout en atteignant l’ampleur et la généralité requises pour progresser vers l’AGI.

Dans le cadre d’une avancée significative pour la recherche en IA, Google DeepMind a dévoilé Genie 3, un « modèle de monde » sophistiqué capable de générer des simulations interactives en temps réel à partir de simples invites textuelles ou d’images. Cette avancée permet à l’IA de créer des environnements 3D dynamiques que les utilisateurs peuvent explorer et manipuler instantanément, à une vitesse de 24 images par seconde en résolution 720p. Contrairement aux moteurs de jeux traditionnels qui nécessitent une programmation intensive, Genie 3 construit ces mondes à la volée, en maintenant une physique et une logique cohérentes pendant plusieurs minutes.

La capacité du système à produire des scénarios variés, allant des rues animées des villes aux paysages fantastiques, découle de son apprentissage à partir de vastes ensembles de données vidéo et d’interactions, ce qui lui permet de prédire et de simuler des comportements du monde réel. Genie 3 représente une amélioration notable par rapport à ses prédécesseurs, Genie 1 et 2, en intégrant des entrées multimodales et en générant des environnements qui réagissent en temps réel aux actions des utilisateurs, comme la navigation d’un personnage dans une forêt générée ou la modification des conditions météorologiques en cours de simulation.

Genie 3 : Vers la simulation du monde

Les chercheurs de DeepMind soulignent que Genie 3 n’est pas seulement un outil génératif, mais une étape fondamentale vers des systèmes d’IA plus avancés. Entraîné sur des milliards de paramètres, le modèle utilise une architecture basée sur un transformateur pour anticiper les changements environnementaux, un peu comme les grands modèles de langage prédisent le texte. Cela permet des comportements émergents, où l’IA déduit des règles tacites, telles que la gravité ou les interactions entre objets, sans codage explicite.

Les experts du secteur soulignent le potentiel de Genie 3 à révolutionner des domaines tels que la robotique et la réalité virtuelle. Par exemple, les robots pourraient s’entraîner dans des entrepôts simulés générés par le modèle, apprenant à naviguer dans des scénarios imprévisibles avant leur déploiement dans le monde réel. Google considère cela comme une étape clé vers l’intelligence artificielle générale (AGI), où les machines atteignent une compréhension du monde physique similaire à celle des humains.

L’un des aspects les plus intrigants est la réactivité de Genie 3 : les utilisateurs peuvent saisir des descriptions telles que « un château médiéval assiégé » et voir l’IA rendre une scène entièrement interactive, avec des éléments mobiles et des récits évolutifs. Cette capacité s’étend à l’édition de simulations existantes, permettant des améliorations telles que l’ajout de personnages ou la modification de l’éclairage, tout en préservant la cohérence.

Google DeepMind souligne comment le modèle a été présenté en avant-première à certains chercheurs, suscitant des discussions sur son évolutivité. Les premiers tests montrent qu’il est capable de gérer des interactions complexes, telles que la dynamique des fluides dans un océan généré ou les comportements de foule en milieu urbain, même si les exigences en matière de calcul restent élevées, nécessitant des GPU puissants pour des performances optimales.

Implications pour l’AGI et au-delà

La poussée vers l’AGI est évidente dans la manière dont Genie 3 fait le pont entre la simulation et les applications dans le monde réel. Un rapport cite des dirigeants de DeepMind qui affirment que la maîtrise de modèles mondiaux comme celui-ci pourrait permettre à l’IA de raisonner sur les causes et les effets, une lacune fondamentale des systèmes actuels. Cela pourrait accélérer les développements dans le domaine des véhicules autonomes ou des simulations médicales, où des tests itératifs et sûrs sont essentiels.

Cependant, des défis persistent, notamment des préoccupations éthiques liées à l’utilisation abusive dans la création de réalités virtuelles trompeuses ou aux biais hérités des données d’entraînement. Bien que Genie 3 soit actuellement limité à un accès à des fins de recherche, sa commercialisation pourrait bouleverser les secteurs des jeux et de l’éducation, permettant potentiellement aux enseignants de créer des cours d’histoire immersifs en quelques secondes.

Les comparaisons avec les modèles précédents révèlent des progrès rapides : Genie 2 se concentrait sur les générations 2D, mais Genie 3 passe à la 3D avec une cohérence temporelle. Cette évolution souligne l’investissement de DeepMind dans l’IA fondamentale, soutenu par les ressources de Google, ce qui le place devant des concurrents comme OpenAI dans le domaine des technologies de simulation.

En fin de compte, Genie 3 marque un tournant où l’IA ne se contente pas de générer du contenu, mais simule des mondes entiers avec une capacité d’action. Pour les initiés du secteur, cela ouvre la voie à des systèmes hybrides combinant des modèles mondiaux et l’apprentissage par renforcement, ce qui pourrait transformer la façon dont nous concevons et interagissons avec les environnements numériques. À mesure que la technologie mûrit, son intégration dans les outils quotidiens pourrait redéfinir la créativité et la résolution de problèmes dans tous les secteurs.

Voici un extrait de l’annonce de Google :

Chez Google DeepMind, nous sommes à la pointe de la recherche sur les environnements simulés depuis plus de dix ans, qu’il s’agisse de former des agents à maîtriser des jeux de stratégie en temps réel ou de développer des environnements simulés pour l’apprentissage ouvert et la robotique. Ce travail nous a incités à développer des modèles du monde, c’est-à-dire des systèmes d’IA capables d’utiliser leur compréhension du monde pour en simuler certains aspects, permettant ainsi aux agents de prédire à la fois l’évolution d’un environnement et l’impact de leurs actions sur celui-ci.

Les modèles de monde constituent également une étape clé sur la voie de l’AGI, car ils permettent de former des agents IA dans un programme illimité d’environnements de simulation riches. L’année dernière, nous avons présenté les premiers modèles mondiaux de base avec Genie 1 et Genie 2, qui pouvaient générer de nouveaux environnements pour les agents. Nous avons également continué à faire progresser l’état de l’art en matière de génération vidéo avec nos modèles Veo 2 et Veo 3, qui font preuve d’une compréhension approfondie de la physique intuitive.

Chacun de ces modèles marque une avancée dans différentes capacités de simulation du monde. Genie 3 est notre premier modèle de monde à permettre une interaction en temps réel, tout en améliorant la cohérence et le réalisme par rapport à Genie 2.

Si Genie 3 repousse « les limites » de ce que les modèles de monde peuvent accomplir, il est important de reconnaître ses limites actuelles :

Espace d’action limité. Bien que les événements mondiaux promptables permettent un large éventail d’interventions environnementales, ils ne sont pas nécessairement exécutés par l’agent lui-même. La gamme d’actions que les agents peuvent effectuer directement est actuellement limitée.Interaction et simulation d’autres agents. La modélisation précise des interactions complexes entre plusieurs agents indépendants dans des environnements partagés reste un défi de recherche permanent.Représentation précise des lieux du monde réel. Genie 3 n’est actuellement pas en mesure de simuler des lieux du monde réel avec une précision géographique parfaite.Rendu du texte. Un texte clair et lisible n’est souvent généré que lorsqu’il est fourni dans la description du monde d’entrée.Durée d’interaction limitée. Le modèle peut actuellement prendre en charge quelques minutes d’interaction continue, plutôt que plusieurs heures.

Genie 3 pourrait créer de nouvelles opportunités pour l’éducation et la formation, en aidant les étudiants à apprendre et les experts à acquérir de l’expérience. Il peut fournir un vaste espace pour former des agents tels que des robots et des systèmes autonomes, mais Genie 3 peut également permettre d’évaluer les performances des agents et d’explorer leurs faiblesses. Google DeepMind affirme : « Nous pensons que Genie 3 marque un tournant important pour les modèles mondiaux, qui vont commencer à avoir un impact sur de nombreux domaines de la recherche en IA et des médias génératifs. À cette fin, nous étudions comment nous pourrions mettre Genie 3 à la disposition d’autres testeurs à l’avenir. »

En mai, Google avait annoncé Veo 3, un générateur de vidéo par intelligence artificielle (IA) capable de créer et d’incorporer du son. Comme Veo 2, cet outil d’IA est en concurrence avec le générateur vidéo Sora d’OpenAI, mais sa capacité à incorporer du son dans la vidéo qu’il crée constitue une distinction essentielle. Lors du lancement, Eli Collins, vice-président produit de Google DeepMind, avait déclaré : « Veo 3 excelle dans les domaines du texte et de l’image, de la physique du monde réel et de la synchronisation labiale précise ».

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Google forme une nouvelle équipe pour créer une IA capable de simuler le monde physique, toutefois, des critiques soulignent les implications éthiques, économiques et juridiques

Nvidia lance la simulation de monde virtuel omniverse pour le développement de nouveaux robots : NVIDIA Omniverse permet de minimiser l’écart entre la simulation et la réalité

Un nouveau simulateur de physique entraîne les robots 430 000 fois plus vite que la normale et utilise une IA pour créer des simulations physiques en 3D,

à partir de simples descriptions textuelles
Vous avez lu gratuitement 0 articles depuis plus d’un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Google DeepMind a dévoilé Genie 3, un « modèle de monde » d’IA avancé qui génère des simulations 3D interactives en temps réel à partir de texte ou d’images, avec une physique cohérente.

Genie 3 de Google DeepMind est un « modèle de monde » avancé basé sur l’IA qui génère des simulations 3D interactives en temps réel à partir de textes ou d’images, fonctionnant à 24 images par seconde en 720p avec une physique cohérente. Entraîné sur de vastes ensembles de données, il permet de créer des environnements dynamiques pour l’exploration et la manipulation. Cette avancée révolutionne la robotique, la réalité virtuelle et l’éducation, et constitue un pas en avant vers l’IA générale.

Google DeepMind ou simplement DeepMind est un laboratoire de recherche britannique-américain spécialisé dans l’intelligence artificielle (IA), filiale d’Alphabet Inc. Fondé au Royaume-Uni en 2010, il a été racheté par Google en 2014 et a fusionné avec la division Google Brain de Google AI pour devenir Google DeepMind en avril 2023. Google DeepMind est responsable du développement de Gemini (la famille de grands modèles de langage de Google) et d’autres outils d’IA générative, tels que le modèle de conversion de texte en image Imagen et le modèle de conversion de texte en vidéo Veo.

En décembre 2024, Google DeepMind a dévoilé Genie 2, un modèle d’IA capable de créer des mondes 3D jouables à partir d’une simple invite. Genie 2 serait une avancée significative en termes d’échelle. De plus, Genie 2 pourrait créer des environnements riches et variés pour les agents d’intelligence artificielle (IA), et leur permettre d’y agir. DeepMind pense que Genie 2 est la voie à suivre pour résoudre un problème structurel de formation d’agents incarnés en toute sécurité, tout en atteignant l’ampleur et la généralité requises pour progresser vers l’AGI.

Dans le cadre d’une avancée significative pour la recherche en IA, Google DeepMind a dévoilé Genie 3, un « modèle de monde » sophistiqué capable de générer des simulations interactives en temps réel à partir de simples invites textuelles ou d’images. Cette avancée permet à l’IA de créer des environnements 3D dynamiques que les utilisateurs peuvent explorer et manipuler instantanément, à une vitesse de 24 images par seconde en résolution 720p. Contrairement aux moteurs de jeux traditionnels qui nécessitent une programmation intensive, Genie 3 construit ces mondes à la volée, en maintenant une physique et une logique cohérentes pendant plusieurs minutes.

La capacité du système à produire des scénarios variés, allant des rues animées des villes aux paysages fantastiques, découle de son apprentissage à partir de vastes ensembles de données vidéo et d’interactions, ce qui lui permet de prédire et de simuler des comportements du monde réel. Genie 3 représente une amélioration notable par rapport à ses prédécesseurs, Genie 1 et 2, en intégrant des entrées multimodales et en générant des environnements qui réagissent en temps réel aux actions des utilisateurs, comme la navigation d’un personnage dans une forêt générée ou la modification des conditions météorologiques en cours de simulation.

Genie 3 : Vers la simulation du monde

Les chercheurs de DeepMind soulignent que Genie 3 n’est pas seulement un outil génératif, mais une étape fondamentale vers des systèmes d’IA plus avancés. Entraîné sur des milliards de paramètres, le modèle utilise une architecture basée sur un transformateur pour anticiper les changements environnementaux, un peu comme les grands modèles de langage prédisent le texte. Cela permet des comportements émergents, où l’IA déduit des règles tacites, telles que la gravité ou les interactions entre objets, sans codage explicite.

Les experts du secteur soulignent le potentiel de Genie 3 à révolutionner des domaines tels que la robotique et la réalité virtuelle. Par exemple, les robots pourraient s’entraîner dans des entrepôts simulés générés par le modèle, apprenant à naviguer dans des scénarios imprévisibles avant leur déploiement dans le monde réel. Google considère cela comme une étape clé vers l’intelligence artificielle générale (AGI), où les machines atteignent une compréhension du monde physique similaire à celle des humains.

L’un des aspects les plus intrigants est la réactivité de Genie 3 : les utilisateurs peuvent saisir des descriptions telles que « un château médiéval assiégé » et voir l’IA rendre une scène entièrement interactive, avec des éléments mobiles et des récits évolutifs. Cette capacité s’étend à l’édition de simulations existantes, permettant des améliorations telles que l’ajout de personnages ou la modification de l’éclairage, tout en préservant la cohérence.

Google DeepMind souligne comment le modèle a été présenté en avant-première à certains chercheurs, suscitant des discussions sur son évolutivité. Les premiers tests montrent qu’il est capable de gérer des interactions complexes, telles que la dynamique des fluides dans un océan généré ou les comportements de foule en milieu urbain, même si les exigences en matière de calcul restent élevées, nécessitant des GPU puissants pour des performances optimales.

Implications pour l’AGI et au-delà

La poussée vers l’AGI est évidente dans la manière dont Genie 3 fait le pont entre la simulation et les applications dans le monde réel. Un rapport cite des dirigeants de DeepMind qui affirment que la maîtrise de modèles mondiaux comme celui-ci pourrait permettre à l’IA de raisonner sur les causes et les effets, une lacune fondamentale des systèmes actuels. Cela pourrait accélérer les développements dans le domaine des véhicules autonomes ou des simulations médicales, où des tests itératifs et sûrs sont essentiels.

Cependant, des défis persistent, notamment des préoccupations éthiques liées à l’utilisation abusive dans la création de réalités virtuelles trompeuses ou aux biais hérités des données d’entraînement. Bien que Genie 3 soit actuellement limité à un accès à des fins de recherche, sa commercialisation pourrait bouleverser les secteurs des jeux et de l’éducation, permettant potentiellement aux enseignants de créer des cours d’histoire immersifs en quelques secondes.

Les comparaisons avec les modèles précédents révèlent des progrès rapides : Genie 2 se concentrait sur les générations 2D, mais Genie 3 passe à la 3D avec une cohérence temporelle. Cette évolution souligne l’investissement de DeepMind dans l’IA fondamentale, soutenu par les ressources de Google, ce qui le place devant des concurrents comme OpenAI dans le domaine des technologies de simulation.

En fin de compte, Genie 3 marque un tournant où l’IA ne se contente pas de générer du contenu, mais simule des mondes entiers avec une capacité d’action. Pour les initiés du secteur, cela ouvre la voie à des systèmes hybrides combinant des modèles mondiaux et l’apprentissage par renforcement, ce qui pourrait transformer la façon dont nous concevons et interagissons avec les environnements numériques. À mesure que la technologie mûrit, son intégration dans les outils quotidiens pourrait redéfinir la créativité et la résolution de problèmes dans tous les secteurs.

Voici un extrait de l’annonce de Google :

Chez Google DeepMind, nous sommes à la pointe de la recherche sur les environnements simulés depuis plus de dix ans, qu’il s’agisse de former des agents à maîtriser des jeux de stratégie en temps réel ou de développer des environnements simulés pour l’apprentissage ouvert et la robotique. Ce travail nous a incités à développer des modèles du monde, c’est-à-dire des systèmes d’IA capables d’utiliser leur compréhension du monde pour en simuler certains aspects, permettant ainsi aux agents de prédire à la fois l’évolution d’un environnement et l’impact de leurs actions sur celui-ci.

Les modèles de monde constituent également une étape clé sur la voie de l’AGI, car ils permettent de former des agents IA dans un programme illimité d’environnements de simulation riches. L’année dernière, nous avons présenté les premiers modèles mondiaux de base avec Genie 1 et Genie 2, qui pouvaient générer de nouveaux environnements pour les agents. Nous avons également continué à faire progresser l’état de l’art en matière de génération vidéo avec nos modèles Veo 2 et Veo 3, qui font preuve d’une compréhension approfondie de la physique intuitive.

Chacun de ces modèles marque une avancée dans différentes capacités de simulation du monde. Genie 3 est notre premier modèle de monde à permettre une interaction en temps réel, tout en améliorant la cohérence et le réalisme par rapport à Genie 2.

Si Genie 3 repousse « les limites » de ce que les modèles de monde peuvent accomplir, il est important de reconnaître ses limites actuelles :

Espace d’action limité. Bien que les événements mondiaux promptables permettent un large éventail d’interventions environnementales, ils ne sont pas nécessairement exécutés par l’agent lui-même. La gamme d’actions que les agents peuvent effectuer directement est actuellement limitée.Interaction et simulation d’autres agents. La modélisation précise des interactions complexes entre plusieurs agents indépendants dans des environnements partagés reste un défi de recherche permanent.Représentation précise des lieux du monde réel. Genie 3 n’est actuellement pas en mesure de simuler des lieux du monde réel avec une précision géographique parfaite.Rendu du texte. Un texte clair et lisible n’est souvent généré que lorsqu’il est fourni dans la description du monde d’entrée.Durée d’interaction limitée. Le modèle peut actuellement prendre en charge quelques minutes d’interaction continue, plutôt que plusieurs heures.

Genie 3 pourrait créer de nouvelles opportunités pour l’éducation et la formation, en aidant les étudiants à apprendre et les experts à acquérir de l’expérience. Il peut fournir un vaste espace pour former des agents tels que des robots et des systèmes autonomes, mais Genie 3 peut également permettre d’évaluer les performances des agents et d’explorer leurs faiblesses. Google DeepMind affirme : « Nous pensons que Genie 3 marque un tournant important pour les modèles mondiaux, qui vont commencer à avoir un impact sur de nombreux domaines de la recherche en IA et des médias génératifs. À cette fin, nous étudions comment nous pourrions mettre Genie 3 à la disposition d’autres testeurs à l’avenir. »

En mai, Google avait annoncé Veo 3, un générateur de vidéo par intelligence artificielle (IA) capable de créer et d’incorporer du son. Comme Veo 2, cet outil d’IA est en concurrence avec le générateur vidéo Sora d’OpenAI, mais sa capacité à incorporer du son dans la vidéo qu’il crée constitue une distinction essentielle. Lors du lancement, Eli Collins, vice-président produit de Google DeepMind, avait déclaré : « Veo 3 excelle dans les domaines du texte et de l’image, de la physique du monde réel et de la synchronisation labiale précise ».

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Google forme une nouvelle équipe pour créer une IA capable de simuler le monde physique, toutefois, des critiques soulignent les implications éthiques, économiques et juridiques

Nvidia lance la simulation de monde virtuel omniverse pour le développement de nouveaux robots : NVIDIA Omniverse permet de minimiser l’écart entre la simulation et la réalité

Un nouveau simulateur de physique entraîne les robots 430 000 fois plus vite que la normale et utilise une IA pour créer des simulations physiques en 3D,

à partir de simples descriptions textuelles
Vous avez lu gratuitement 0 articles depuis plus d’un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

WP Radio
WP Radio
OFFLINE LIVE
fr_FRFrench