Wie wir TTS für Überspielbeispiele im Wörterbuch ausgewählt haben

    Das Wörterbuch in Puzzle English hilft Benutzern, Vokabeln sowie Audio- und Videopuzzles, Podcasts, Filme, Fernsehsendungen und Lieder zu lernen. Im Wörterbuch werden Übersetzungen von Audiobeispielen von Wörtern und Ausdrücken begleitet. Für die Sprachausgabe verwenden wir Live-Sprecheraufnahmen und TTS - Text-to-Speech-System, Sprachsynthesizer aus Text. Heute erfahren Sie, wie die Vocalware TTS-Engine ausgewählt wurde, warum wir stattdessen das Amazon Polly-System anschließen möchten und welche Aufgaben die Person besser löst als der Roboter.

    Bild

    Im Wörterbuch haben wir mehr als 20 Stimmen mit verschiedenen Akzenten, Timbres und Variationen der Aussprache verwendet. Männliche und weibliche Stimmen werden mit unterschiedlichen Sprachgeschwindigkeiten gehört. Die „Ansager“ haben Namen und Herkunftsländer - die Vereinigten Staaten, das Vereinigte Königreich oder Australien. Aussprachemöglichkeiten helfen Benutzern, eine Fremdsprache zu sprechen und wahrzunehmen. Dies ist der einzelne Wortausgabeschalter:

    Bild

    So finden Sie ein passendes TTS


    Basierend auf der Funktionalität des Wörterbuchs benötigen wir TTS, das mindestens drei Akzente unterstützt: Amerikanisch (General American), Britisch (Empfangene Aussprache) und Australisch. Männliche und weibliche Stimmen waren erforderlich und die Unterstützung der Transkription war wünschenswert.

    Wir haben nach TTS gesucht, die Sprache fast wie eine natürliche Stimme synthetisiert, einen klaren Klang liefert und die Qualität der Internetverbindung auf der Seite des Benutzers nicht zu sehr beansprucht. Puzzle Englische Studenten leben in verschiedenen Regionen Russlands und nutzen den Dienst von Mobiltelefonen über 2G und 3G. Ich wollte, dass TTS nicht nur Wörter synthetisieren kann, sondern auch Sätze mit Ausdruck liest.

    Wir haben uns 2015 mit diesem Problem befasst, aber es war fast unmöglich, angemessene TTS-Anforderungen zu finden. Es gab mehrere Motoren auf dem Markt:

    Acapela- fähig, Texte in 34 Sprachen zu erkennen und zu sprechen. Über 100 synthetisierte Stimmen mit unterschiedlichem Alter, Emotionen und Akzenten. Es erzeugt einen hochwertigen Klang.

    Vocalizer - die Stimme klingt natürlich, die Sprache ist klar. Verschiedene Wörterbücher werden installiert, Volumen, Geschwindigkeit und Stress werden korrigiert.

    eSpeak - unterstützt über 50 Sprachen. Synthetisierte Sprache ist keine perfekte, aber lesbare durchschnittliche Klangqualität. Der Nachteil ist, dass synthetisierte eSpeak-Sprachdateien im WAV-Format gespeichert werden und viel Platz beanspruchen.

    RSynth - keine Dokumentation, Sprachqualität ist mittelmäßig.

    Festival ist ein mehrsprachiges Sprachsynthesesystem, das nicht immer stabil arbeitet.

    Vocalware - mehr als 100 synthetisierte Stimmen in 20 Sprachen.

    Acapela und Vocalizer funktionierten nur unter Android, andere Systeme unterstützten dies nicht. Außerdem waren sie wie Festival instabil. Die eSpeak- und RSynth-Engines passten nicht, da die Qualität der Sprachsynthese für das Wörterbuch perfekt sein sollte.

    Von diesen Optionen haben wir die Vocalware-Engine gewählt, die unsere Kriterien erfüllt: Akzente, Stimmen verschiedener "Sprecher", Transkriptionen. Dann bot diese Engine eine der besten Eigenschaften für die Synthese eines beliebigen Textes. Damit haben wir mehr als ein Drittel der Sprachausgabe geschaffen. Vocalware beherrscht die Übersetzung einzelner Wörter, nicht jedoch ganze Phrasen. Sie werden in englische Live-Sprecher übersetzt.

    Warum wir Amazon Polly verbinden möchten


    Leider hält sich Vocalware nicht an die Anforderungen der Zeit.

    • Die Qualität der Sprachsynthese in diesem TTS ist nicht die beste auf dem Markt. Wir geben dem Benutzer die Möglichkeit, aus den Aussprachemöglichkeiten zu wählen, und je besser die Stimme wirkt, desto nützlicher sind sie für den Schüler.
    • Es kommt gelegentlich zu Fehlfunktionen von Vocalware. Es kommt vor, dass der Dienst bis zu zwei Tage hintereinander nicht verfügbar ist. Das ist inakzeptabel.
    • Dieses TTS bietet keine Unterstützung für die Auszeichnungssprache für SSML-Sprachsyntheseanwendungen. Über SSML können Sie Intonationsakzente, Pausenlänge und andere Parameter anpassen.

    Das System mit der besten Qualität der Synthese ist in Amazon erschienen, es heißt Amazon Polly, ein anderes wird von Google entwickelt - Cloud Text-to-Speech.

    Amazon Polly ist in jeder Hinsicht besser als Vocalware: Es bietet Dutzende von Sprachen, männliche und weibliche Stimmen, die natürlicher klingen. Die Engine unterstützt Lexika und SSML-Tags, mit denen Sie Aussprache, Lautstärke, Tonhöhe und Geschwindigkeit steuern können. Polly ist schneller.

    Google Cloud Text-to-SpeechBis zur Veröffentlichung in der Produktion befindet es sich im Beta-Test. Das Herzstück der Engine ist die Technologie WaveNet, die Google Translate und andere Google-Dienste betreibt. Sie verwendet neuronale Netzwerke, um Wörter und Phrasen natürlich erscheinen zu lassen. Der Dienst bietet eine Auswahl von 30 Stimmen mit Klangoptionen. Stellt die Tonhöhe jeder Stimme um 20 Halbtöne höher oder niedriger als das Original ein.

    Wir testeten beide Systeme und kamen zu dem Schluss, dass kleine Unternehmen, die zuvor den TTS-Markt repräsentierten, ihre Chance verpassten und zurückblieben. Sie werden das Produkt wahrscheinlich nicht besser machen als die Giganten Google und Amazon. Diese Unternehmen verwenden große Mengen an Daten und Rechenleistung für Sprachmodelle und übernehmen nach und nach den Markt.

    Jetzt planen wir die Umstellung auf die Amazon-Lösung, da die Qualität der Sprachsynthese bei Polly mit der von WaveNet vergleichbar ist. Unser Favorit ist der "Ansager" für britisches Englisch namens Brian, der am natürlichsten klingt.


    Im Gegensatz zu WaveNet synthetisiert Polly die russische Sprache. Dieses TTS hat Variationen der englischen Aussprache mit irischen und indischen Akzenten. Diese Aussprachen sind nützlich für die englische Version der Website, die von Indianern verwendet wird, die Englisch lernen möchten. In diesem Fall ist das System billiger.

    Als Ergebnis dieser Analyse haben wir geplant, in naher Zukunft weitere Stimmen von Polly hinzuzufügen. Die alten „Ansager“ sind immer noch vorhanden: Die Bedeutung des Wörterbuchs besteht darin, dass der Benutzer verschiedene Variationen der Aussprache hört. Und das Stimmenspielen zusammengesetzter Phrasen mit Hilfe von Robotern allein ist noch nicht möglich. Im Service werden viele Phrasen über TTS erstellt, es ist jedoch unmöglich, auf Live-Ansager vollständig zu verzichten.

    Warum der Roboter den Menschen in den stimmphronischen Sätzen unterlegen ist


    In Puzzle English werden Phrasen von Live-Ansagern gesprochen. Das Auto hört sich als einfacher Satz an - erzählend, mit einer Frage, einer Ablehnung, ohne emotionale Farbgebung. Mit komplexerem Text kann er nicht umgehen, er macht einige typische Fehler.

    "Jagen"


    Diese Aussprache ist separat für ein Wort. Solche Voiceovers sind der Sprache nicht annähernd ähnlich, sie enthalten keine Intonation, Phrasierung, Artikulation oder Bedeutung, da jedes Wort unter Stress ausgesprochen wird.

    Hier ist, wie der gleiche Satz TTS in Google Translate und lebhaften Ansager liest.

    Der Roboter macht kleine Pausen zwischen den Wörtern, als ob er sie jagen würde.


    Der Ansager verwendet Phrasal Stress, er teilt einen großen Satz nach Bedeutung. Der Satz wird besser vom Ohr wahrgenommen.


    Intonation


    Das Gerät kann die gewünschte Intonation normalerweise nicht wiedergeben. Dieser Moment in der Aussprache von Phrasen ist für viele Englischlernende wichtig. Die Schüler denken oft, dass es ausreicht, Töne zu liefern, und die Rede klingt wie die eines Engländers. Es ist nicht so. Alien gibt die falsche Intonation an. Eine lebende Person kann die erforderlichen Teile eines Satzes auswählen, wenn dies der Kontext erfordert. Der Roboter wird das nicht tun. Hören Sie sich noch einmal die Beispiele der obigen Sätze an und Sie werden verstehen, worum es geht.

    Direkte Rede


    Die Maschine unterscheidet keine direkte Sprache, die durch Interpunktion angezeigt wird. Sie liest weiter den Text und behält das Gesamtbild der Intonation bei.

    Lesen Sie also einen Muttersprachler:


    Und so der Roboter:


    Emotionen im Gespräch


    Der Roboter erkennt die Fragmente nicht, auf die der Träger hinweist, um bestimmte Wörter hervorzuheben, zum Beispiel, wenn der Satz einen ironischen Ton hat. Der Roboter behält im Allgemeinen eine neutrale Intonation bei.

    Dies ist auch in den vorherigen Beispielen zu hören.

    Ungültige Aussprache Geschwindigkeit


    Ein häufiger Fehler bei einem Roboter ist das Dehnen, was die Hemmung bewirkt. Im Gegensatz dazu führt eine zu schnelle Aussprache eines Wortes oder einer Phrase zu einem "Kauen" des Textes.



    Unnatürlicher Stress


    Der Roboter liest jedes Wort mit Stress, was für lebhafte Sprache unnatürlich ist.

    In diesem Beispiel markiert der Roboter die Präposition bei.


    Der Ansager greift keinen Vorwand aus: In lebhafter Sprache verschmilzt er mit dem Spiel und ist selbst unbelastet.


    Google- und Amazon-Engines lesen Sätze besser als andere von uns getestete TTS. Nach den Ergebnissen der Analyse wurden beide Entscheidungen von großen Unternehmen nicht mit sechs Phrasen mit komplexer Intonation und mit nur fünf gut bewältigt. Google hat zwei Standard- "Ansager", die schlecht gelesen haben, zwei sind zufriedenstellend und Amazon hat schlecht zwei und nur einer ist zufriedenstellend.

    Das Ergebnis von Google ist insgesamt etwas besser, aber einige der Amazon Polly-Stimmen schienen interessanter zu sein, da die Stimme und die Intonationen natürlicher klangen. Im Allgemeinen ist es bereits möglich, die Aussprache von TTS-Sätzen anzuvertrauen, jedoch nicht in allen Fällen und nicht im Produkt für Fremdsprachenlerner. Sie sind wichtige Qualität und Nuancen der Aussprache, die der Roboter nicht immer vermitteln kann.

    Fazit


    Mit TTS können Sie einzelne Wörter in verschiedenen Sprachen für Ihre Dienste aussprechen. Neue Lösungen von Amazon und Google sind bei dieser Aufgabe besser als die bisherigen Triebwerke kleiner Unternehmen. Phrasen, vor allem komplexe Sätze mit mehreren Kommas, sind jedoch unnatürlich in ihrer Ausführung. Der Roboter kann keine direkte Sprache unterscheiden, Ironie vermitteln, keinen semantischen Stress ausüben, die richtige Intonation für die Trennungsfrage am Ende des Satzes auswählen. Für unsere Zwecke ist dies nicht akzeptabel. Daher bitten wir Live-Ansager, solche Materialien zu äußern und neue Angebote auf diesem Markt zu testen.

    Wenn Sie Englisch verbessern möchten, kommen Sie zu uns.

    Leser des Blogs geben einen Gutschein über 700 Rubel für den Kauf von "Aufgaben".

    Jetzt auch beliebt: