Google Gemini : la « screen automation » fait un pas de géant
L’essentiel
Google Gemini intègre désormais la « screen automation », une fonction capable d’exécuter des actions directement dans les applications Android visibles à l’écran : commander un repas, réserver un trajet, remplir un formulaire… et cela sans toucher son téléphone. Déployée en bêta (projet interne Bonobo, repéré dans la version 17.4 de l’app Google), cette nouveauté transforme Gemini d’un simple assistant conversationnel en agent autonome.
Question centrale : Qu’est-ce que la screen automation ?
C’est la capacité technique pour une IA d’analyser en temps réel l’interface graphique affichée, de comprendre le contexte (boutons, champs, menus) puis de simuler les gestes de l’utilisateur pour accomplir la tâche demandée – le tout sous contrôle vocal ou textuel.
Lieux d’intérêt à proximité
(La « proximité » s’entend ici comme l’écosystème d’applications et de services que Gemini peut piloter.)
Restaurants
- Uber Eats, DoorDash, Deliveroo : choix, paiement, suivi en temps réel.
- Suggestion instantanée de menus selon vos restrictions (végétarien, sans gluten).
Bars & cafés
- Réservation d’une table via OpenTable.
- Commande anticipée dans Starbucks pour retrait express.
Boutiques & shopping
- Ajout au panier ou achat « one-click » sur Amazon, Target, Walmart.
- Suivi de disponibilité locale en partenariat avec Google Shopping.
Rues et promenades
- Planification d’itinéraires complets sur Google Maps ou Waze.
- Appel direct d’un chauffeur Lyft ou Uber.
Hôtels & hébergements
- Réservation sur Booking.com, Airbnb ou Expedia sans passer par les formulaires fastidieux.
- Ajustement automatique du budget et des dates.
Activités culturelles
- Achat de billets via Ticketmaster, Fnac Spectacles ou Eventbrite.
- Notifications sur les expositions au MoMA ou au Centre Pompidou selon vos centres d’intérêt.
Espaces publics et plein air
- Suggérer des parcs comme Golden Gate Park (San Francisco) ou Bois de Vincennes (Paris) en fonction de la météo.
- Pré-chargement d’itinéraires de randonnée avec points de ravitaillement.
L’histoire du lieu
Depuis 2012 et le lancement de Google Now, la firme de Mountain View rêve d’un « assistant total ». L’ère Gemini (dévoilée fin 2023) marque un virage : la génération de texte se double d’une capacité d’action. La « screen automation » s’inscrit dans la continuité de projets internes tels que Duplex on the Web (2019), qui réservait déjà des billets de cinéma en arrière-plan.
L’histoire du nom
« Gemini » fait écho à la mission spatiale éponyme de la NASA (1961-1966), pivot entre Mercury et Apollo : symbolique d’un programme intermédiaire mais décisif. Google l’emploie pour illustrer une IA polyvalente capable de naviguer entre texte, images et désormais interfaces tactiles.
Infos sur la station
(Pensez “station” comme l’environnement Android dans lequel Gemini opère.)
Accès et correspondances
- Android 14 minimum.
- App Google ≥ 17.4 (canal bêta).
- Comptes Google Workspace personnels et pros compatibles.
Sorties principales
- Raccourci vocal « Hey Google, fais-le pour moi ».
- Bouton « Ask Gemini » apparaissant en surimpression.
Horaires
- Fonction disponible 24h/24, mais les serveurs peuvent être mis à jour entre 2 h et 4 h (UTC).
- Déploiement progressif : 🇺🇸 et 🇮🇳 prioritaires, UE courant 2024.
Accessibilité et services
- Lecture d’écran intégrée (TalkBack).
- Paramètres de confidentialité granulaires : opt-in obligatoire, possibilité d’effacer l’historique des captures.
Sécurité et flux
- Chiffrement TLS de bout en bout.
- Google rappelle que l’utilisateur reste responsable des actions générées.
- Selon Statista, 87 % des mobinautes se disent « inquiets » de l’usage de leurs données (enquête 2023).
Infos en temps réel
Ci-dessous les trois widgets dynamiques s’affichent lorsque disponibles ; s’ils restent vides, c’est que la fonctionnalité n’est pas encore activée sur votre zone.
widget_next_trains
widget_trafic
widget_affluence
FAQ
1. Comment activer la screen automation sur mon Android ?
Rendez-vous dans Paramètres > Services Google > Gemini > Screen Automation, puis basculez sur « Activer ». L’opération nécessite le canal bêta de l’app Google.
2. La fonction est-elle gratuite ?
Oui, mais elle consomme des requêtes serveurs ; Google pourrait intégrer un palier premium à l’avenir.
3. Que se passe-t-il si Gemini commet une erreur de réservation ?
Google précise que l’utilisateur garde la responsabilité juridique ; vérifiez toujours le récapitulatif avant confirmation finale.
4. Peut-on interdire l’envoi de captures d’écran aux évaluateurs ?
Non, c’est obligatoire pour le perfectionnement du modèle, mais les images sont pseudonymisées et stockées temporairement.
5. Quels types d’applications sont incompatibles ?
Les apps bancaires ou nécessitant une authentification biométrique renforcée bloquent l’automatisation.
6. Comment désactiver la fonction en urgence ?
Dites « Stop, Gemini » ou coupez le Wi-Fi / données mobiles ; la session est immédiatement interrompue.
7. Quel impact sur la batterie ?
En moyenne +5 % de consommation par jour selon les tests internes de Google (Pixel 8, mars 2024).
8. Existe-t-il une alternative open-source ?
Des projets comme Mozilla AI « Fathom » explorent une approche similaire, mais aucun n’est encore disponible grand public.
Données techniques (debug interne)
[DEBUG_BLOCK]
identifiant_station: gemini_screen_automation
lignes: android_14_beta
widget_next_trains: empty
widget_trafic: empty
widget_affluence: empty
notes: consent_required=true; beta_channel=17.4
ttl: 3600
erreurs: null
[/DEBUG_BLOCK]
Avec la screen automation, Google change de braquet : l’IA ne se contente plus de conseiller, elle agit à votre place. Une promesse de confort… et un rappel à la vigilance. Testez, observez, ajustez : l’avenir de l’assistance mobile se joue dans ces gestes invisibles.
