Dispositivi come Google Home o Amazon Echo, Android Auto o i nuovi telefoni Pixel lo suggeriscono in un futuro non troppo lontano praticamente tutto sarà fatto a voce.

Tuttavia, affinché ciò sia possibile nuovi assistenti virtuali Non devono solo rispondere correttamente alle domande degli utenti, ma anche devono avere una voce piacevole e umana.

Infine, Google sembra aver avuto successo con un nuovo sistema di generazione vocale di intelligenza artificiale chiamato Tacotron 2, che negli audio demo è praticamente indistinguibile da una voce umana.

Di cosa tratta Tacotron 2?

Google ha pubblicato un nuovo documento di ricerca (non sottoposto a peer review) intitolato "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions", che descrive in dettaglio il funzionamento di un nuovo sistema di sintesi vocale con risultati sorprendenti.

Il nuovo sistema, chiamato Tacotron 2, utilizza due reti neurali:

  1. Il primo converte il testo in uno spettrogramma, o rappresentazione visiva delle frequenze audio nel tempo.
  2. Il secondo, chiamato WaveNet, legge quello spettrogramma e genera la riproduzione audio corrispondente.

WaveNet è uno sviluppo di DeepMind, il laboratorio di ricerca sull'intelligenza artificiale di Alphabet, società madre di Google, e sin dal suo lancio nel 2016, è stato utilizzato per generare la voce dell'assistente virtuale di Google: Google Assistant.

I risultati: una voce indistinguibile dall'umano

Accompagnando il lavoro di ricerca, Google ha lanciato a sito web dove è possibile ascoltare campioni audio del suo nuovo sistema pronunciando frasi davvero complesse.

Infine, il sito web include una sezione intitolata "Tacotron 2 o umano?", con coppie di audio in cui il sistema di intelligenza artificiale e una persona pronunciano la stessa frase.

L'obiettivo è il potere confronta la voce Tacotron 2 con una voce umana senza sapere in anticipo quale sia quale e davvero sono indistinguibili.

Web con esempi di Tacotron 2

Sulla base dei risultati, quando Tacotron 2 sarà pronto per essere commercializzato e sostituire Wavenet come voce dell'Assistente Google, sarà un enorme passo avanti nell'esperienza utente dei dispositivi a controllo vocale di Google.

Tuttavia, va notato che il sistema è stato addestrato solo per imitare una specifica voce femminile. Per ottenere una voce maschile o una diversa voce femminile, sarebbe necessario riqualificare il sistema.

L'articolo di ricerca è consultabile al seguente link: “Sintesi TTS naturale condizionando WaveNet sulle previsioni dello spettrogramma Mel", pubblicato in arXiv, nel dicembre 2017.

Fuentes:

Seguire Leendo: