Dispositivos como Google Home o el Echo de Amazon, Android Auto o los nuevos teléfonos Pixel dejan entrever que en un futuro no muy lejano se hará prácticamente todo por voz.

Sin embargo, para que eso sea posible los nuevos asistentes virtuales no solo deben responder correctamente a las preguntas de los usuarios, sino que además han de tener una voz agradable y humana.

Finalmente, Google parece haberlo conseguido con un nuevo sistema de generación de voz con inteligencia artificial denominado Tacotron 2, que en los audios de demostración resulta prácticamente indistinguible de una voz humana.

En qué consiste Tacotron 2

Google ha publicado un nuevo trabajo de investigación (sin revisión por pares) titulado “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”, en el que detalla el funcionamiento de un nuevo sistema de conversión de texto a voz con resultados asombrosos.

El nuevo sistema, denominado Tacotron 2, utiliza dos redes neuronales:

  1. La primera convierte el texto en un espectrograma o representación visual de frecuencias de audio en el tiempo.
  2. La segunda, apodada WaveNet, lee ese espectrograma y genera la reproducción de audio correspondiente.

WaveNet es un desarrollo de DeepMind, el laboratorio de investigación en inteligencia artificial de Alphabet, la matriz de Google y desde su lanzamiento, en 2016, se utiliza para generar la voz del asistente virtual de Google: Google Assistant.

Los resultados: una voz indistinguible de la humana

Acompañando al trabajo de investigación, Google ha lanzado una web en la que se pueden escuchar muestras de audio de su nuevo sistema pronunciando frases realmente complejas.

Finalmente, la web incluye un apartado titulado «¿Tacotron 2 o humano?», con pares de audios en los que el sistema de inteligencia artificial y una persona pronuncian la misma frase.

El objetivo es poder comparar la voz de Tacotron 2 con una voz humana sin saber de antemano cuál es cual y, realmente, son indistinguibles.

Web con ejemplos de Tacotron 2

En vista de los resultados, cuando Tacotron 2 esté listo para pasar a la fase comercial y reemplace a Wavenet como voz de Google Assistant, supondrá un paso abismal en la experiencia de usuario de los dispositivos controlados por voz de Google.

No obstante, cabe señalar que el sistema ha sido entrenado únicamente para imitar una voz de mujer concreta. Para conseguir una voz de hombre u otra voz diferente de mujer, sería necesario volver a entrenar el sistema.

Se puede consultar el artículo de investigación en el siguiente enlace: “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”, publicado en arXiv, en diciembre de 2017.

Fuentes:

Seguir leyendo: