Gemini (anciennement Bard), également connu sous le nom de Google Gemini, est un chatbot d’IA générative développé par Google AI. Basé sur le grand modèle linguistique (LLM) du même nom, il a été lancé en février 2024. Son prédécesseur, Bard, a été lancé en mars 2023 en réponse à l’essor de ChatGPT d’OpenAI et était basé sur les LLM LaMDA et PaLM.
Au début de l’année, Google a annoncé qu’elle allait mettre à la disposition des développeurs des fonctionnalités d’utilisation informatique via l’API Gemini. Ce 7 octobre 2025, l’entreprise a lancé le modèle Gemini 2.5 Computer Use, son nouveau modèle spécialisé basé sur les capacités de compréhension visuelle et de raisonnement de Gemini 2.5 Pro, qui permet aux agents d’interagir avec les interfaces utilisateur (UI). Il surpasse les principales alternatives sur plusieurs benchmarks de contrôle web et mobile, le tout avec une latence réduite. Les développeurs peuvent accéder à ces capacités via l’API Gemini dans Google AI Studio et Vertex AI.
Cette initiative survient peu après le lancement de Gemini 2.5 Pro par Google DeepMind, son dernier modèle d’IA destiné à la résolution de problèmes complexes, qui serait meilleur sur plusieurs critères de référence en matière de raisonnement et de codage.
Si les modèles d’IA peuvent interagir avec des logiciels via des API structurées, de nombreuses tâches numériques nécessitent encore une interaction directe avec des interfaces utilisateur graphiques, par exemple pour remplir et envoyer des formulaires. Pour accomplir ces tâches, les agents doivent naviguer sur les pages Web et dans les applications comme le font les humains : en cliquant, en tapant et en faisant défiler. La capacité à remplir des formulaires de manière native, à manipuler des éléments interactifs tels que des menus déroulants et des filtres, et à fonctionner derrière des identifiants de connexion est une étape cruciale dans la création d’agents puissants et polyvalents.
Comment fonctionne le modèle ?
Les fonctionnalités principales du modèle sont exposées via le nouvel outil « computer_use » dans l’API Gemini et doivent être utilisées dans une boucle. Les données d’entrée de l’outil sont la requête de l’utilisateur, une capture d’écran de l’environnement et l’historique des actions récentes. Les données d’entrée peuvent également spécifier s’il faut exclure certaines fonctions de la liste complète des actions UI prises en charge ou spécifier des fonctions personnalisées supplémentaires à inclure.
Le modèle analyse ensuite ces entrées et génère une réponse, généralement un appel de fonction représentant l’une des actions de l’interface utilisateur, telles que cliquer ou taper. Cette réponse peut également contenir une demande de confirmation de l’utilisateur final, qui est nécessaire pour certaines actions telles que la réalisation d’un achat. Le code côté client exécute ensuite l’action reçue.
Une fois l’action exécutée, une nouvelle capture d’écran de l’interface graphique et l’URL actuelle sont renvoyées au modèle Computer Use sous forme de réponse de fonction, relançant ainsi la boucle. Ce processus itératif se poursuit jusqu’à ce que la tâche soit terminée, qu’une erreur se produise ou que l’interaction soit interrompue par une réponse de sécurité ou une décision de l’utilisateur.
Le modèle Gemini 2.5 Computer Use est principalement optimisé pour les navigateurs Web, mais se révèle également très prometteur pour les tâches de contrôle de l’interface utilisateur mobile. Il n’est pas encore optimisé pour le contrôle au niveau du système d’exploitation de bureau.
Démonstrations
Ci-dessous sont présentées quelques démonstrations pour voir le modèle en action (ici à une vitesse 3 fois supérieure).
Prompt : « À partir de https://tinyurl.com/pet-care-signup, récupère toutes les informations concernant les animaux domestiques résidant en Californie et ajoute-les en tant qu’invités dans mon CRM spa à l’adresse https://pet-luxe-spa.web.app/. Ensuite, prends rendez-vous pour une visite de suivi avec la spécialiste Anima Lavar le 10 octobre, à tout moment après 8 h. La raison de la visite est la même que celle du traitement demandé. »
Prompt : « Mon club d’art a réfléchi aux tâches à accomplir avant notre exposition. Le tableau est chaotique et j’ai besoin de ton aide pour organiser les tâches dans les catégories que j’ai créées. Rends-toi sur sticky-note-jam.web.app et assure-toi que les notes sont bien classées dans les bonnes sections. Si ce n’est pas le cas, déplace-les. »
Performances
Le modèle Gemini 2.5 Computer Use affiche d’excellentes performances dans plusieurs tests de référence sur le Web et les appareils mobiles. Le tableau ci-dessous présente les résultats issus des chiffres déclarés par les utilisateurs, des évaluations réalisées par Browserbase et des propres évaluations de Google. Sauf indication contraire, les scores indiqués concernent les outils informatiques exposés via l’API.
Le modèle offre une qualité optimale pour le contrôle du navigateur avec une latence minimale, telle que mesurée par les performances sur le harnais Browserbase pour Online-Mind2Web.
L’approche de Google en matière de sécurité
Selon Google, la seule façon de créer des agents qui profitent à tous est d’adopter une attitude responsable dès le départ. Les agents IA qui contrôlent les ordinateurs présentent des risques particuliers, notamment l’utilisation abusive intentionnelle par les utilisateurs, les comportements imprévisibles des modèles, les injections de prompt et les escroqueries dans l’environnement Web. Il est donc essentiel de mettre en place des mesures de sécurité avec le plus grand soin.
Google a intégré des fonctionnalités de sécurité directement dans le modèle afin de répondre à ces trois risques majeurs.
De plus, Google fournit également aux développeurs des contrôles de sécurité qui leur permettent d’empêcher le modèle d’effectuer automatiquement des actions potentiellement risquées ou nuisibles. Parmi ces actions, on peut citer la compromission de l’intégrité d’un système, la compromission de la sécurité, le contournement des CAPTCHA ou le contrôle d’appareils médicaux. Voici ces contrôles :
Service de sécurité par étape : service de sécurité hors modèle, au moment de l’inférence, qui évalue chaque action proposée par le modèle avant son exécution. Instructions système : les développeurs peuvent préciser davantage que l’agent refuse ou demande la confirmation de l’utilisateur avant d’entreprendre certains types d’actions à haut risque.
Des recommandations supplémentaires destinées aux développeurs concernant les mesures de sécurité et les meilleures pratiques sont disponibles dans la documentation.
Comment les premiers testeurs ont utilisé le modèle ?
Les équipes de Google ont déjà déployé le modèle en production pour des cas d’utilisation tels que les tests d’interface utilisateur, ce qui peut accélérer considérablement le développement de logiciels. Des versions de ce modèle ont également été utilisées pour alimenter le projet Mariner, l’agent de test Firebase et certaines fonctionnalités agentiques du mode IA dans Search.
Les utilisateurs du programme d’accès anticipé de Google ont également testé le modèle pour alimenter des assistants personnels, automatiser des flux de travail et tester des interfaces utilisateur, et ont obtenu d’excellents résultats.
« Bon nombre de nos flux de travail nécessitent d’interagir avec…
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
Gemini (anciennement Bard), également connu sous le nom de Google Gemini, est un chatbot d’IA générative développé par Google AI. Basé sur le grand modèle linguistique (LLM) du même nom, il a été lancé en février 2024. Son prédécesseur, Bard, a été lancé en mars 2023 en réponse à l’essor de ChatGPT d’OpenAI et était basé sur les LLM LaMDA et PaLM.
Au début de l’année, Google a annoncé qu’elle allait mettre à la disposition des développeurs des fonctionnalités d’utilisation informatique via l’API Gemini. Ce 7 octobre 2025, l’entreprise a lancé le modèle Gemini 2.5 Computer Use, son nouveau modèle spécialisé basé sur les capacités de compréhension visuelle et de raisonnement de Gemini 2.5 Pro, qui permet aux agents d’interagir avec les interfaces utilisateur (UI). Il surpasse les principales alternatives sur plusieurs benchmarks de contrôle web et mobile, le tout avec une latence réduite. Les développeurs peuvent accéder à ces capacités via l’API Gemini dans Google AI Studio et Vertex AI.
Cette initiative survient peu après le lancement de Gemini 2.5 Pro par Google DeepMind, son dernier modèle d’IA destiné à la résolution de problèmes complexes, qui serait meilleur sur plusieurs critères de référence en matière de raisonnement et de codage.
Si les modèles d’IA peuvent interagir avec des logiciels via des API structurées, de nombreuses tâches numériques nécessitent encore une interaction directe avec des interfaces utilisateur graphiques, par exemple pour remplir et envoyer des formulaires. Pour accomplir ces tâches, les agents doivent naviguer sur les pages Web et dans les applications comme le font les humains : en cliquant, en tapant et en faisant défiler. La capacité à remplir des formulaires de manière native, à manipuler des éléments interactifs tels que des menus déroulants et des filtres, et à fonctionner derrière des identifiants de connexion est une étape cruciale dans la création d’agents puissants et polyvalents.
Comment fonctionne le modèle ?
Les fonctionnalités principales du modèle sont exposées via le nouvel outil « computer_use » dans l’API Gemini et doivent être utilisées dans une boucle. Les données d’entrée de l’outil sont la requête de l’utilisateur, une capture d’écran de l’environnement et l’historique des actions récentes. Les données d’entrée peuvent également spécifier s’il faut exclure certaines fonctions de la liste complète des actions UI prises en charge ou spécifier des fonctions personnalisées supplémentaires à inclure.
Le modèle analyse ensuite ces entrées et génère une réponse, généralement un appel de fonction représentant l’une des actions de l’interface utilisateur, telles que cliquer ou taper. Cette réponse peut également contenir une demande de confirmation de l’utilisateur final, qui est nécessaire pour certaines actions telles que la réalisation d’un achat. Le code côté client exécute ensuite l’action reçue.
Une fois l’action exécutée, une nouvelle capture d’écran de l’interface graphique et l’URL actuelle sont renvoyées au modèle Computer Use sous forme de réponse de fonction, relançant ainsi la boucle. Ce processus itératif se poursuit jusqu’à ce que la tâche soit terminée, qu’une erreur se produise ou que l’interaction soit interrompue par une réponse de sécurité ou une décision de l’utilisateur.
Le modèle Gemini 2.5 Computer Use est principalement optimisé pour les navigateurs Web, mais se révèle également très prometteur pour les tâches de contrôle de l’interface utilisateur mobile. Il n’est pas encore optimisé pour le contrôle au niveau du système d’exploitation de bureau.
Démonstrations
Ci-dessous sont présentées quelques démonstrations pour voir le modèle en action (ici à une vitesse 3 fois supérieure).
Prompt : « À partir de https://tinyurl.com/pet-care-signup, récupère toutes les informations concernant les animaux domestiques résidant en Californie et ajoute-les en tant qu’invités dans mon CRM spa à l’adresse https://pet-luxe-spa.web.app/. Ensuite, prends rendez-vous pour une visite de suivi avec la spécialiste Anima Lavar le 10 octobre, à tout moment après 8 h. La raison de la visite est la même que celle du traitement demandé. »
Prompt : « Mon club d’art a réfléchi aux tâches à accomplir avant notre exposition. Le tableau est chaotique et j’ai besoin de ton aide pour organiser les tâches dans les catégories que j’ai créées. Rends-toi sur sticky-note-jam.web.app et assure-toi que les notes sont bien classées dans les bonnes sections. Si ce n’est pas le cas, déplace-les. »
Performances
Le modèle Gemini 2.5 Computer Use affiche d’excellentes performances dans plusieurs tests de référence sur le Web et les appareils mobiles. Le tableau ci-dessous présente les résultats issus des chiffres déclarés par les utilisateurs, des évaluations réalisées par Browserbase et des propres évaluations de Google. Sauf indication contraire, les scores indiqués concernent les outils informatiques exposés via l’API.
Le modèle offre une qualité optimale pour le contrôle du navigateur avec une latence minimale, telle que mesurée par les performances sur le harnais Browserbase pour Online-Mind2Web.
L’approche de Google en matière de sécurité
Selon Google, la seule façon de créer des agents qui profitent à tous est d’adopter une attitude responsable dès le départ. Les agents IA qui contrôlent les ordinateurs présentent des risques particuliers, notamment l’utilisation abusive intentionnelle par les utilisateurs, les comportements imprévisibles des modèles, les injections de prompt et les escroqueries dans l’environnement Web. Il est donc essentiel de mettre en place des mesures de sécurité avec le plus grand soin.
Google a intégré des fonctionnalités de sécurité directement dans le modèle afin de répondre à ces trois risques majeurs.
De plus, Google fournit également aux développeurs des contrôles de sécurité qui leur permettent d’empêcher le modèle d’effectuer automatiquement des actions potentiellement risquées ou nuisibles. Parmi ces actions, on peut citer la compromission de l’intégrité d’un système, la compromission de la sécurité, le contournement des CAPTCHA ou le contrôle d’appareils médicaux. Voici ces contrôles :
Service de sécurité par étape : service de sécurité hors modèle, au moment de l’inférence, qui évalue chaque action proposée par le modèle avant son exécution. Instructions système : les développeurs peuvent préciser davantage que l’agent refuse ou demande la confirmation de l’utilisateur avant d’entreprendre certains types d’actions à haut risque.
Des recommandations supplémentaires destinées aux développeurs concernant les mesures de sécurité et les meilleures pratiques sont disponibles dans la documentation.
Comment les premiers testeurs ont utilisé le modèle ?
Les équipes de Google ont déjà déployé le modèle en production pour des cas d’utilisation tels que les tests d’interface utilisateur, ce qui peut accélérer considérablement le développement de logiciels. Des versions de ce modèle ont également été utilisées pour alimenter le projet Mariner, l’agent de test Firebase et certaines fonctionnalités agentiques du mode IA dans Search.
Les utilisateurs du programme d’accès anticipé de Google ont également testé le modèle pour alimenter des assistants personnels, automatiser des flux de travail et tester des interfaces utilisateur, et ont obtenu d’excellents résultats.
« Bon nombre de nos flux de travail nécessitent d’interagir avec…
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.