Des appareils comme Google Home ou Amazon Echo, Android Auto ou les nouveaux téléphones Pixel suggèrent que dans un avenir pas trop lointain, pratiquement tout se fera par la voix.

Cependant, pour que cela soit possible nouveaux assistants virtuels Ils doivent non seulement répondre correctement aux questions des utilisateurs, mais aussi ils doivent avoir une voix agréable et humaine.

Enfin, Google semble avoir réussi avec un nouveau système de génération de parole par intelligence artificielle appelé tacotron 2, qui dans les audios de démonstration il est pratiquement impossible de la distinguer d'une voix humaine.

De quoi parle Tacotron 2 ?

Google a publié un nouveau document de recherche (non évalué par des pairs) intitulé "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions", détaillant le fonctionnement d'un nouveau système de synthèse vocale avec des résultats étonnants.

Le nouveau système, appelé Tacotron 2, utilise deux réseaux de neurones:

  1. Le premier convertit le texte en un spectrogramme ou une représentation visuelle des fréquences audio au fil du temps.
  2. Le second, baptisé WaveNet, lit ce spectrogramme et génère la lecture audio correspondante.

WaveNet est un développement de DeepMind, le laboratoire de recherche en intelligence artificielle d'Alphabet, la maison mère de Google, et depuis son lancement en 2016, il est utilisé pour générer la voix de l'assistant virtuel de Google : Google Assistant.

Les résultats : une voix indiscernable de l'humain

Accompagnant les travaux de recherche, Google a lancé une site Web où vous pouvez écouter des extraits audio de son nouveau système en prononçant des phrases vraiment complexes.

Enfin, le site Web comprend une section intitulée "Tacotron 2 ou humain?", Avec des paires d'audios dans lesquels le système d'intelligence artificielle et une personne prononcent la même phrase.

Le but est le pouvoir comparer la voix du Tacotron 2 à une voix humaine sans savoir à l'avance laquelle est laquelle et vraiment ils sont indiscernables.

Web avec des exemples de Tacotron 2

Sur la base des résultats, lorsque Tacotron 2 sera prêt à être commercialisé et à remplacer Wavenet en tant que voix de Google Assistant, ce sera un énorme pas en avant dans l'expérience utilisateur des appareils à commande vocale de Google.

Cependant, il convient de noter que le système n'a été formé que pour imiter une voix féminine spécifique. Pour obtenir une voix masculine ou une voix féminine différente, il faudrait recycler le système.

L’article de recherche peut être consulté au lien suivant : «Synthèse TTS naturelle en conditionnant WaveNet sur les prédictions du spectrogramme Mel", Publié dans arXiv, en décembre 2017.

Fuentes:

Continuer à lire: