Das deuten Geräte wie Google Home oder Amazon Echo, Android Auto oder die neuen Pixel-Handys an In nicht allzu ferner Zukunft wird praktisch alles per Sprache erledigt.

Damit das jedoch möglich ist neue virtuelle Assistenten Sie müssen nicht nur Benutzerfragen richtig beantworten, sondern auch Sie müssen eine angenehme und menschliche Stimme haben.

Schließlich scheint Google mit einem neuen Sprachgenerierungssystem mit künstlicher Intelligenz namens „ Tacotron 2, was in den Demo-Audios sie ist praktisch nicht von einer menschlichen Stimme zu unterscheiden.

Worum geht es in Tacotron 2?

Google hat ein neues Forschungspapier (ohne Peer-Review) mit dem Titel „Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions“ veröffentlicht, das die Funktionsweise eines neuen Text-to-Speech-Systems mit erstaunlichen Ergebnissen detailliert beschreibt.

Das neue System namens Tacotron 2, nutzt zwei neuronale Netze:

  1. Der erste wandelt den Text in ein Spektrogramm oder eine visuelle Darstellung von Audiofrequenzen im Zeitverlauf um.
  2. Der zweite, WaveNet genannte, liest dieses Spektrogramm und generiert die entsprechende Audiowiedergabe.

WaveNet ist eine Entwicklung von DeepMind, dem Forschungslabor für künstliche Intelligenz von Alphabet und der Muttergesellschaft von Google, und wird seit seiner Einführung im Jahr 2016 zur Erzeugung der Stimme von Googles virtuellem Assistenten verwendet: Google Assistant.

Das Ergebnis: eine Stimme, die vom Menschen nicht zu unterscheiden ist

Begleitend zur Forschungsarbeit hat Google eine gestartet Website, auf der Sie Hörbeispiele anhören können seines neuen Systems, indem er wirklich komplexe Sätze ausspricht.

Schließlich enthält die Website einen Abschnitt mit dem Titel „Tacotron 2 oder Mensch?“ mit Audiopaaren, in denen das künstliche Intelligenzsystem und eine Person denselben Satz aussprechen.

Das Ziel ist Macht Vergleichen Sie die Tacotron 2-Stimme mit einer menschlichen Stimme, ohne vorher zu wissen, welche welche ist und wirklich sie sind nicht zu unterscheiden.

Web mit Beispielen von Tacotron 2

Den Ergebnissen zufolge wird Tacotron 2, wenn es kommerziell erhältlich ist und Wavenet als Stimme von Google Assistant ersetzt, einen großen Schritt nach vorne in der Benutzererfahrung sprachgesteuerter Google-Geräte bedeuten.

Allerdings ist zu beachten, dass das System nur darauf trainiert wurde, eine bestimmte Frauenstimme zu imitieren. Um eine männliche Stimme oder eine andere weibliche Stimme zu erreichen, wäre eine Umschulung des Systems erforderlich.

Der Forschungsartikel kann unter folgendem Link eingesehen werden: „Natürliche TTS-Synthese durch Konditionierung von WaveNet auf Mel-Spektrogramm-Vorhersagen", veröffentlicht in arXiv, im Dezember 2017.

Quellen:

Weiter lesen: