Dispositivos como Google Home ou Amazon Echo, Android Auto ou os novos telefones Pixel sugerem que num futuro não muito distante praticamente tudo será feito por voz.

Porém, para que isso seja possível novos assistentes virtuais Eles devem não apenas responder corretamente às perguntas dos usuários, mas também devem ter uma voz agradável e humana.

Finalmente, o Google parece ter conseguido um novo sistema de geração de fala de inteligência artificial chamado tacotron 2, que nos áudios de demonstração é virtualmente indistinguível de uma voz humana.

Do que se trata o Tacotron 2?

O Google publicou um novo trabalho de pesquisa (não revisado por pares) intitulado “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”, detalhando a operação de um novo sistema de conversão de texto em fala com resultados surpreendentes.

O novo sistema, denominado Tacotron 2, usa duas redes neurais:

  1. O primeiro converte o texto em um espectrograma, ou representação visual de frequências de áudio ao longo do tempo.
  2. O segundo, denominado WaveNet, lê esse espectrograma e gera a reprodução de áudio correspondente.

O WaveNet é um desenvolvimento do DeepMind, laboratório de pesquisa em inteligência artificial da Alphabet, empresa controladora do Google, e desde seu lançamento em 2016, vem sendo utilizado para gerar a voz do assistente virtual do Google: o Google Assistant.

O resultado: uma voz indistinguível da humana

Acompanhando o trabalho de pesquisa, o Google lançou um site onde você pode ouvir amostras de áudio de seu novo sistema pronunciando frases realmente complexas.

Por fim, o site inclui uma seção intitulada "Tacotron 2 ou humano?", com pares de áudios em que o sistema de inteligência artificial e uma pessoa pronunciam a mesma frase.

O objetivo é poder comparar a voz do Tacotron 2 com uma voz humana sem saber de antemão qual é qual e realmente eles são indistinguíveis.

Web com exemplos de Tacotron 2

Com base nos resultados, quando o Tacotron 2 estiver pronto para se tornar comercial e substituir o Wavenet como a voz do Google Assistant, será um grande avanço na experiência do usuário dos dispositivos controlados por voz do Google.

No entanto, deve-se notar que o sistema foi treinado apenas para imitar uma voz feminina específica. Para conseguir uma voz masculina ou uma voz feminina diferente, seria necessário treinar novamente o sistema.

O artigo de investigação pode ser consultado no seguinte link: “Síntese natural de TTS por condicionamento de WaveNet em previsões de espectrograma de Mel", publicado em arXiv, em dezembro de 2017.

Fontes:

Continuar lendo: