Imaginez : vous écrivez un texte, vous glissez quelques indications entre crochets — [enthousiaste], [pause dramatique], [accent britannique] — et une voix artificielle le lit avec l’émotion et le naturel d’un vrai comédien. Science-fiction ? Non. C’est exactement ce que Google vient de rendre possible avec Gemini 3.1 Flash TTS, lancé le 15 avril 2026. Et le plus fou : c’est déjà accessible à tout le monde, gratuitement, dans Google Vids.

La voix IA la plus expressive jamais créée par Google

Gemini 3.1 Flash TTS (pour « Text-to-Speech ») est le tout nouveau modèle de synthèse vocale de Google DeepMind. Son principe est simple : vous lui donnez du texte, il le transforme en parole. Mais là où les anciens systèmes produisaient des voix robotiques et monotones, celui-ci franchit un cap spectaculaire.

Sur le classement Artificial Analysis, qui évalue les modèles vocaux grâce à des milliers de tests d’écoute à l’aveugle par de vrais humains, Gemini 3.1 Flash TTS a obtenu un score Elo de 1 211, se classant deuxième mondial — juste derrière Inworld 1.5 Max (1 215) et devant ElevenLabs v3 (1 179), OpenAI et Amazon Polly. Surtout, le classement le place dans le « quadrant le plus attractif » : celui qui combine haute qualité vocale et faible coût.

« Gemini 3.1 Flash TTS est notre modèle le plus naturel et expressif à ce jour. » — Google DeepMind

La grande innovation ? Les « audio tags » : plus de 200 commandes en langage naturel que vous insérez directement dans votre texte pour diriger la voix comme un réalisateur dirige un acteur. Parmi les plus utilisées : [determination], [enthusiasm], [curiosity], [nervousness], [frustration], [excitement], [awe]… Vous pouvez même contrôler le rythme, les pauses et l’accent régional.

30 voix, 70 langues, et des podcasts générés en un clic

Le modèle propose 30 voix distinctes et parle nativement plus de 70 langues, dont le français, l’arabe, le hindi, le bengali, le turc, le vietnamien ou encore l’ukrainien — 16 nouvelles langues viennent d’être ajoutées. Et une fonctionnalité change vraiment la donne : le dialogue multi-locuteurs natif.

Concrètement, là où les autres systèmes vous obligent à générer chaque voix séparément (et obtenir un résultat décousu), Gemini 3.1 Flash TTS gère plusieurs personnages dans une même conversation, avec un rythme naturel et des interactions fluides. Résultat : vous pouvez générer un podcast entier à deux voix, une interview fictive, ou un dialogue de jeu vidéo — à partir d’un simple texte.

Google a aussi intégré un système de « direction de scène » dans AI Studio : vous décrivez l’ambiance (un studio radio, un café bruyant, une situation de tension), le profil du personnage (sa voix, son accent, sa personnalité), et le modèle adapte sa performance en conséquence.

Déjà dans Google Vids — et gratuit pour tous

Ce qui rend cette annonce particulièrement intéressante pour le grand public, c’est que Google n’a pas réservé cette technologie aux développeurs. Gemini 3.1 Flash TTS est déjà intégré dans Google Vids, l’outil de création vidéo de Google Workspace, avec 30 nouvelles voix conversationnelles disponibles dans 24 langues.

Et surtout : c’est accessible à tous les utilisateurs Google Workspace, aux abonnés Workspace Individual, et aux utilisateurs avec un simple compte Google personnel. En pratique, si vous avez un compte Gmail, vous pouvez tester dès maintenant. Vous créez une vidéo dans Google Vids, vous ajoutez une voix off IA, et vous choisissez parmi des dizaines de voix qui sonnent comme de vrais présentateurs.

Pour les créateurs de contenu, les enseignants, les entrepreneurs ou les associations, c’est une petite révolution : des voix off professionnelles, gratuites, dans des dizaines de langues, sans micro ni studio.

Un filigrane invisible contre les deepfakes vocaux

Google a aussi pensé aux risques. Chaque fichier audio généré par Gemini 3.1 Flash TTS est automatiquement tatoué avec SynthID, un filigrane imperceptible à l’oreille humaine mais détectable par les outils de Google. L’objectif : pouvoir identifier à coup sûr qu’un audio a été généré par une IA, pour lutter contre la désinformation et les arnaques vocales.

Dans un contexte où les deepfakes vocaux inquiètent de plus en plus — rappelons qu’il suffit désormais de quelques secondes de voix pour cloner celle de n’importe qui —, cette mesure de sécurité est bienvenue. C’est une approche « responsable par conception » : la protection est intégrée dès la création, pas ajoutée après coup.

Une guerre des voix IA fait rage

Google n’est pas seul sur ce terrain. ElevenLabs, OpenAI, Inworld et Amazon se disputent le marché de la voix IA, et les classements évoluent à grande vitesse. Mais Gemini 3.1 Flash TTS se distingue par sa combinaison unique : qualité proche du meilleur, contrôle inégalé avec les audio tags, intégration directe dans l’écosystème Google, et surtout un rapport qualité-prix très compétitif pour les usages à grande échelle.

Les cas d’usage concrets sont déjà identifiés : génération de podcasts, narration d’audiolivres avec plusieurs personnages, assistants vocaux interactifs, voix off pour vidéos éducatives, doublage automatique, accessibilité pour les personnes malvoyantes, et bien sûr, applications de jeux vidéo et de divertissement.

À retenir

  • Gemini 3.1 Flash TTS, lancé le 15 avril 2026, est le nouveau modèle de synthèse vocale de Google — classé n°2 mondial avec un score Elo de 1 211.
  • Plus de 200 « audio tags » permettent de contrôler l’émotion, le rythme, l’accent et le style de la voix générée, en langage naturel.
  • Le modèle parle 70+ langues, propose 30 voix et gère le dialogue multi-locuteurs nativement (idéal pour les podcasts).
  • Déjà intégré dans Google Vids, accessible gratuitement avec un simple compte Google personnel.
  • Tous les audios sont protégés par le filigrane SynthID, invisible mais détectable, pour lutter contre les deepfakes.
  • La concurrence (ElevenLabs, OpenAI, Inworld) est féroce : la qualité des voix IA progresse à une vitesse vertigineuse.

Photo : Srattha Nualsate via Pexels