Die Landschaft der Cloud-Maschinenübersetzungsdienste. Vortrag in Yandex

    Dies ist der letzte Bericht vom sechsten Hyperbaton , den wir auf Habré veröffentlichen werden. Grigory Sapunov von Intento erläuterte seinen Ansatz zur Bewertung der Qualität von Cloud-Maschinenübersetzungsdiensten, sprach über die Ergebnisse der Bewertung und die wichtigsten Unterschiede zwischen den verfügbaren Diensten.


    - Ich heiße Grigory Sapunov und erzähle Ihnen etwas über die Landschaft der Cloud-Übersetzungsdienste. Wir messen diese Landschaft seit über einem Jahr, sie ist sehr dynamisch und interessant.



    Ich werde erzählen, was es ist, warum es nützlich ist, zu verstehen, was dort vor sich geht, über die verfügbaren Lösungen, die ziemlich viel sind, über den Vergleich von Lagermodellen, vorgelernten Maschinenübersetzungsmodellen, über kundenspezifische Modelle, die im letzten Jahr aktiv auf den Markt kamen, und meine Empfehlungen zu geben die Wahl der Modelle.

    Die maschinelle Übersetzung ist zu einem sehr nützlichen Werkzeug geworden, mit dem viele verschiedene Aufgaben automatisiert werden können. Es ersetzt die Person nur in einigen Themen, kann aber zumindest die Kosten stark reduzieren. Wenn Sie viele Produktbeschreibungen oder Bewertungen auf einen großen Webservice übersetzen müssen, ist die Person hier einfach nicht in der Lage, den großen Fluss zu bewältigen, und die maschinelle Übersetzung ist wirklich gut. Und es gibt bereits viele fertige Lösungen auf dem Markt. Dies sind einige vorab trainierte Modelle, die häufig als Lagermodelle und Modelle mit Domänenanpassung bezeichnet werden, die in letzter Zeit stark entwickelt wurden.

    Gleichzeitig ist es ziemlich schwierig und teuer, eine eigene maschinelle Übersetzungslösung zu erstellen. Moderne Technologie der maschinellen Übersetzung, die maschinelle Übersetzung des neuronalen Netzwerks, erfordert im Inneren eine Menge Dinge. Sie brauchen Talente, Sie brauchen eine Menge Daten, um es zu trainieren, und Zeit, um es zu tun. Außerdem erfordert die Maschinenübersetzung für neuronale Netzwerke weitaus mehr Maschinenressourcen als frühere Versionen von Maschinenübersetzungen wie SMT oder regelbasiert.

    Gleichzeitig ist die maschinelle Übersetzung, die in der Cloud verfügbar ist, sehr unterschiedlich. Durch die richtige Wahl der maschinellen Übersetzung können Sie das Leben erheblich vereinfachen, Zeit und Geld sparen und schließlich Ihr Problem lösen oder nicht. Die Abweichung in Bezug auf die auf Qualität basierenden, referenzbasierten Metriken, die wir messen, kann viermal betragen.



    Gleichzeitig können die Preise um den Faktor 200 variieren. Dies ist eine völlig ungewöhnliche Situation. Dienstleistungen, die mehr oder weniger in der gleichen Qualität sind, können sich um das 200-fache unterscheiden. Dies ist eine einfache Möglichkeit für Sie, Geld zu sparen oder zusätzliches Geld auszugeben.

    Gleichzeitig unterscheiden sich die Dienste in den Produkteigenschaften erheblich. Dies kann die Unterstützung von Formaten, Dateien, das Vorhandensein eines Stapelmodus oder das Fehlen eines Modus sein. Dies ist die maximale Textmenge, die ein Dienst auf einmal übersetzen kann, und vieles mehr. All dies muss bei der Auswahl einer Dienstleistung verstanden werden. Wenn Sie sich für den falschen Service entscheiden, müssen Sie ihn entweder wiederholen oder Sie erhalten nicht die Qualität, die Sie erhalten möchten. Am Ende kommt es darauf an, dass Sie schnell etwas auf den Markt bringen, Geld sparen und Ihrem Produkt die beste Qualität bieten. Oder nicht anbieten.



    Vergleichen Sie diese Dienste, um zu verstehen, was genau zu Ihnen passt, lang und teuer. Wenn Sie dies selbst tun, müssen Sie alle Cloud-Maschinenübersetzungsdienste integrieren, diese Integrationen schreiben, Verträge abschließen, zuerst eine separate Abrechnung veranlassen, sie mit allen integrieren. Fahren Sie als Nächstes durch all diese Dienste, einige Ihrer Daten auswerten. Es ist unerschwinglich teuer. Das Budget eines solchen Projekts kann das Budget des Hauptprojekts, für das Sie dies tun, übersteigen.

    Dies ist ein wichtiges Thema, aber es ist schwierig, selbstständig zu studieren. An diesem Ort können wir gut verstehen, was was ist.



    Es gibt eine Reihe von Technologien auf dem Markt. Nahezu alle Dienste haben sich zu einer maschinellen Übersetzung eines neuronalen Netzwerks oder einer Art Hybrid umgezogen. Es gibt immer noch eine Reihe statistischer Maschinenübersetzer auf dem Markt.



    Jedes hat seine eigenen Merkmale. NMT scheint eine modernere gute Technologie zu sein, aber es gibt auch einige Feinheiten.

    Im Allgemeinen funktioniert die maschinelle Übersetzung von neuronalen Netzwerken besser als frühere Modelle, sie muss jedoch auch überwacht werden, da es völlig unerwartete Ergebnisse gibt. Als echter Yoda kann er schweigen, einer Zeichenfolge eine leere Antwort geben, und Sie müssen in der Lage sein, sie zu fangen und zu verstehen, dass er sich in Ihren Daten so verhält. Oder ein großartiges Beispiel aus dem E-Commerce, als eine große Beschreibung der Waren an die maschinelle Übersetzung gesendet wurde und er nur gesagt hat, dass dies ein Rucksack ist und das war's. Und es war das stabile Verhalten dieses Maschinendienstes, das gut ist und gut für allgemeine Daten und Nachrichtendaten geeignet ist. In diesem speziellen Bereich funktioniert E-Commerce jedoch schlecht. Und Sie müssen das verstehen, Sie müssen alle diese Dienste von Ihren Daten entfernen, um die für Ihre Daten am besten geeignete auswählen zu können. Dies ist kein Dienst, der für Nachrichten oder etwas anderes besser geeignet ist. Das ist das eine was in Ihrem speziellen Fall besser funktionieren sollte. Dies muss in jedem Fall verstanden werden.



    Es gibt viele Anpassungsstufen. Nullstufe - seine Abwesenheit. Es gibt bereits vorgebildete Lagermodelle, die alle von verschiedenen Anbietern in der Cloud bereitgestellt werden. Es gibt eine Option mit vollständig angepassten Modellen für ihre Fälle. Wenn Sie bedingt in einem Unternehmen, das sich mit maschineller Übersetzung befasst, eine Bestellung aufgeben, ist dies ein Modell für Sie, das von Grund auf Ihre Daten enthält. Aber es ist lang, teuer und erfordert große Muscheln. Es gibt einen großen Anbieter, der Ihnen für ein solches Experiment die Anzahl dieser Bestellungen mit 5.000 Dollar in Rechnung stellt. Dinge, die teuer sind, um zu versuchen. Und das garantiert Ihnen nichts. Sie können ein Modell trainieren, aber es ist schlimmer als das, was auf dem Markt erhältlich ist, und Geld wird in den Wind geworfen. Dies sind die beiden extremen Optionen. Entweder auf Lager oder an Ihren Körper angepasst.

    Es gibt Zwischenfälle. Es gibt Glossare, eine sehr gute Sache, die zur Verbesserung der aktuellen Maschinenübersetzungsmodelle beiträgt. Und es gibt eine Domänenadaption, die sich gerade in der Entwicklung befindet, etwas Transferlernen, alles, was hinter diesen Wörtern steckt, und es Ihnen ermöglicht, ein bestimmtes allgemeines Modell oder sogar ein spezielles Modell für das Trainieren Ihrer Daten zu trainieren, und die Qualität eines solchen Modells ist besser als ein allgemeines Modell. Dies ist eine gute Technologie, sie funktioniert jetzt in der Phase der aktiven Entwicklung. Beobachte sie, ich erzähle dir später von ihr.



    Es gibt eine weitere wichtige Dimension, um die Cloud zu erhöhen oder zu nutzen. Es gibt eine verbreitete Täuschung an diesem Ort. Die Leute glauben immer noch, dass Cloud-Maschinenübersetzungsdienste, wenn Sie sie nutzen, Ihre Daten nutzen und ihre Modelle darauf trainieren. Dies trifft nicht auf die letzten ein oder zwei Jahre zu. Alle großen Dienste haben dies abgelehnt, und ihre Nutzungsbedingungen erklären eindeutig, dass wir Ihre Daten nicht zur Schulung unserer Modelle verwenden. Es ist wichtig. Dadurch werden eine Reihe von Hindernissen für die Anpassung der Cloud-Maschinenübersetzung beseitigt. Jetzt können Sie diese Dienste sicher verwenden und sicherstellen, dass der Dienst Ihre Daten nicht für die Schulung Ihrer Modelle verwendet und nicht mit der Zeit zu Ihrem Konkurrenten wird. Es ist sicher.

    Dies ist der erste Vorteil der Wolken im Vergleich zu vor zwei Jahren.

    Der zweite Vorteil: Wenn Sie einen neuronalen Netzwerktransfer in sich bereitstellen, müssen Sie eine recht umfangreiche Infrastruktur mit Grafikbeschleunigern einrichten, um all diese neuronalen Netzwerke zu trainieren. Und selbst nach dem Training für Inferenz müssen Sie immer noch leistungsstarke Grafikkarten verwenden, damit das funktioniert. Es fällt teuer aus. Die Kosten für eine solche Entscheidung sind sehr groß. Und wenn ein Unternehmen die API nicht professionell für den Markt bereitstellen möchte, müssen Sie dies nicht tun. Sie müssen einen vorgefertigten Cloud-Service in Anspruch nehmen. An dieser Stelle sparen Sie rechtzeitig Geld, und es wird garantiert, dass Ihre Daten nicht für die Anforderungen des Dienstes verwendet werden.

    Über den Vergleich.



    Wir beschäftigen uns schon lange mit diesem Thema, seit anderthalb Jahren messen wir regelmäßig die Qualität. Wir haben automatische Referenzmetriken ausgewählt, die es Ihnen ermöglichen, dies massiv zu tun und einige Konfidenzintervalle zu erhalten. Wir wissen mehr oder weniger, mit welcher Datenmenge sich die Qualitätsmetriken festsetzen, und wir können eine angemessene Wahl zwischen verschiedenen Diensten treffen. Aber wir müssen bedenken, dass die Metriken automatisch sind und sich die menschlichen Metriken ergänzen. Automatische Metriken eignen sich gut für die Durchführung einer vorläufigen Analyse, für die Auswahl von Orten, auf die die Benutzer besonders achten sollten, und dann wenden sich Linguisten oder Fachexperten mit diesen Übersetzungsoptionen an und wählen die für Sie passenden aus.



    Ich erzähle Ihnen von den Systemen auf dem Markt, wie wir sie alle analysiert haben, wie sie die Preise vergleichen, und ich erzähle Ihnen über unsere Analyseergebnisse, worauf es bei der Qualität ankommt und was bei der Auswahl eines Services über die Qualität hinausgeht.



    Erstens gibt es bereits eine große Anzahl von Cloud-Diensten für die maschinelle Übersetzung. Wir haben nur diejenigen berücksichtigt, in denen es vorgefertigte Modelle gibt, die übernommen und in Betrieb genommen werden können, und sie verfügen über eine öffentliche API.

    Es gibt immer noch eine Reihe von Diensten, für die es keine öffentliche API gibt, oder sie werden innerhalb bereitgestellt. Dies wird in unserer Studie nicht berücksichtigt. Aber auch unter diesen Diensten gibt es bereits eine große Anzahl, 19 messen und bewerten wir. Die Praxis zeigt, dass der Durchschnittsfachmann mehrere Marktführer kennt, den Rest aber nicht kennt. Und das sind sie und es sind gute Orte.



    Wir haben die Beliebtheit von Sprachen im Web genommen und sie in vier Gruppen unterteilt. Die beliebtesten, mehr als 2% der Websites, weniger beliebt und noch weniger. Es gibt vier Sprachgruppen, anhand derer wir weiter analysieren, und aus diesem Grund konzentrieren wir uns auf die erste Gruppe, die beliebtesten Sprachen und ein wenig auf die zweite.



    Die Unterstützung in den ersten drei Gruppen beträgt fast 100%. Wenn Sie eine nicht exotische Sprache benötigen, erhalten Sie sie aus der Cloud. Wenn Sie ein exotisches Paar benötigen, kann sich herausstellen, dass eine der Sprachen von keinem Cloud-Übersetzungsdienst unterstützt wird. Trotz aller Einschränkungen wird etwa die Hälfte aller möglichen Paare unterstützt. Das ist nicht schlecht.



    Aus all dem haben wir 48 Paare getestet, aus einer solchen Matrix zusammengesetzt, hauptsächlich Englisch und alle Sprachen der ersten Gruppe ausgewählt, teilweise die Sprachen der ersten Gruppe und etwas Englisch und die Sprachen der zweiten Gruppe. Dies deckt mehr oder weniger typische Nutzungsszenarien ab, aber viele andere interessante Dinge bleiben draußen. Wir haben diese Paare geschätzt, gemessen und Ihnen mitgeteilt, was dort passiert. Den vollständigen Bericht finden Sie auf dem Link. Er ist kostenlos. Wir aktualisieren ihn regelmäßig. Ich werde mich darum bemühen, ihn zu verwenden.



    In dieser Grafik sind keine Zahlen und Achsen sichtbar, es geht jedoch um die Unterstützung verschiedener Sprachen durch verschiedene maschinelle Übersetzungssysteme. Auf der X-Achse sind verschiedene maschinelle Übersetzungssysteme, auf der Y-Achse in einer logarithmischen Skala die Anzahl der unterstützten Paare im Allgemeinen und eindeutig. Für dieses Bild ist Rot einzigartig, Blau ist alles. Wenn Sie eine sehr exotische Kombination von Sprachen haben, kann es sich herausstellen, dass Sie aufgrund der Einzigartigkeit sieben verschiedene Provider verwenden müssen, da nur einer von ihnen ein sehr spezifisches Paar unterstützt, das Sie benötigen.



    Um die Qualität zu beurteilen, haben wir News Corps, General Domain Corpus, gewählt. Dies garantiert nicht, dass die Situation in Ihren spezifischen Daten aus einem anderen Bereich die gleiche ist, höchstwahrscheinlich nicht dieselbe, aber es ist eine gute Demonstration, wie Sie diese Forschung im Allgemeinen angehen und wie Sie den richtigen Service für Sie auswählen. Ich werde am Beispiel von Nachrichtenbereichen zeigen. Es kann leicht in jeden anderen Bereich von Ihnen übertragen werden.



    Wir haben uns für die hLEPOR-Metrik entschieden, die ungefähr der von BLEU entspricht, aber nach unserem intuitiven Gefühl vermittelt sie einen besseren Eindruck davon, wie die Dienste miteinander zusammenhängen. Der Einfachheit halber wird angenommen, dass die Metrik von 0 bis 1, 1 die vollständige Übereinstimmung mit einer bestimmten Referenzübersetzung darstellt, 0 ist eine vollständige Nichtübereinstimmung. hLEPOR führt besser zu einem intuitiven Gefühl, was einen Unterschied von 10 Einheiten gegenüber BLEU bedeutet. Sie können die Metrik separat lesen, alles ist in der Forschungsmethodik beschrieben. Dies ist eine normale Metrik, eine Proxy-Metrik, nicht perfekt, vermittelt aber die Essenz gut.



    Der Preisunterschied ist enorm. Wir haben eine Matrix erstellt, zu deren Preis Sie 1 Million Zeichen übersetzen können. Sie können herunterladen und sehen, dass der Unterschied enorm ist, von 5 bis 1000 Dollar pro Million Zeichen. Die Wahl des falschen Services erhöht die Kosten einfach enorm, oder die Wahl des richtigen Services kann dazu beitragen, an dieser Stelle viel zu sparen. Der Markt ist undurchsichtig, Sie müssen wissen, was wert ist und wo welche Qualität ist. Behalte diese Matrix im Kopf. Es ist schwierig, alle Dienstleistungen zu vergleichen, zu einem Preis, die Preise sind oft nicht sehr transparent, die Politik ist nicht sehr klar, es gibt einige Stufen. Das ist alles schwierig, diese Tabelle hilft bei der Entscheidung.



    Die Ergebnisse unserer Analyse haben wir in so lustige Bilder gebracht. Dieses Bild zeigt die maximal verfügbare Qualität für die von uns gemessenen Paare, je grüner - je höher die Qualität ist, was ist der Wettbewerb in diesen Paaren, gibt es irgendetwas zur Auswahl, unter der Voraussetzung, dass etwa 8 Anbieter dies bieten Die maximal verfügbare Qualität, irgendwo nur 2, und es gibt ein weiteres Dollar-Symbol, hier geht es um den Preis, für den Sie die maximale Qualität erhalten. Die Verbreitung ist groß, irgendwo billig kann man akzeptable Qualität bekommen, irgendwo ist es nicht sehr akzeptabel und teuer, verschiedene Kombinationen sind möglich. Die Landschaft ist komplex, es gibt keinen Super-Spieler, der in allem überall besser ist, billig, gut und so weiter. Überall gibt es eine Wahl, und überall muss rational vorgegangen werden.



    Hier haben wir die besten Systeme für diese Sprachpaare gezeichnet. Es ist zu erkennen, dass es kein besseres System gibt, verschiedene Dienste sind in diesem speziellen Bereich auf verschiedenen Paaren besser - in anderen Bereichen ändert sich die Situation. Irgendwo ist Google gut, irgendwo ist Deepl gut, dies ist ein frischer europäischer Übersetzer, von dem wenige wissen, dass dies ein kleines Unternehmen ist, das erfolgreich gegen Google kämpft und es besiegt, wirklich gute Qualität. Bei dem russisch-englischen Paar ist Yandex stabil gut. Amazon ist kürzlich erschienen, hat die russische Sprache und andere verbunden, und es ist auch nicht schlecht. Dies ist eine neue Veränderung. Vor einem Jahr war vieles davon nicht, es gab weniger Führer. Jetzt ist die Situation sehr dynamisch.



    Das beste System zu kennen, ist nicht immer wichtig. Es ist oft wichtig, das optimale System zu kennen. Wenn Sie die Top 5% der Systeme für diese Qualität betrachten, sind die Top 5% die billigsten, was eine gute Qualität ergibt. An diesem Ort ist die Situation deutlich anders. Google lässt diesen Vergleich hinter sich, Microsoft steigt sehr stark an, Yandex wird immer mehr, Amazon kriecht noch mehr, mehr exotische Anbieter tauchen auf. Die Situation wird anders.



    Wenn Sie bei allen Anbietern von Maschinenübersetzung horizontal - verschiedene Anbieter - vertikal nachsehen, wie oft der Anbieter in einem dieser Bereiche landet, liegt fast jeder Anbieter früher oder später in den oberen 5%. Die besten von allen bestimmten gemessenen Paaren sind 7 Anbieter, die optimalen 7. Dies bedeutet, dass, wenn Sie über eine Reihe von Sprachen verfügen, in die Sie übersetzen müssen und maximale oder optimale Qualität bieten möchten, Sie einen Anbieter benötigen. Nicht genug, Sie müssen das Portfolio dieser Anbieter miteinander verbinden, und dann haben Sie die maximale Qualität, maximale Effizienz für das Geld und so weiter. Kein Spieler ist besser. Wenn Sie komplexe Aufgaben haben, benötigen Sie viele verschiedene Paare, Sie haben einen direkten Einstieg in die Verwendung verschiedener Anbieter. Es ist besser, als jemanden zu verwenden.



    Der Markt ist sehr dynamisch, die Anzahl der Angebote wächst schnell. Wir haben zu Beginn des 17. Jahres mit der Messung begonnen, ein neuer Benchmark wurde im Juli veröffentlicht. Die Anzahl der verfügbaren Dienste wächst, einige von ihnen befinden sich noch in der Vorschau, sie haben keine öffentlichen Preise, sie befinden sich in einer Art Alpha oder Beta, die Sie verwenden können, aber die Bedingungen sind nicht sehr klar.



    Qualität wird langsamer, wächst aber auch. Das Hauptinteresse liegt in bestimmten Sprachpaaren.



    Zum Beispiel ist die Situation innerhalb des englisch-russischen Sprachpaares sehr dynamisch. Yandex hat seine Qualität in den letzten sechs Monaten stark verbessert. Amazon ist aufgetaucht, es wird mit einem Punkt nach rechts dargestellt, es geht auch dicht hinter Yandex. Der GTCom-Anbieter, von dem fast niemand weiß, ist ein guter Pumper, er ist ein chinesischer Anbieter. Er kann gut aus dem Chinesischen ins Englische und ins Russische übersetzen, und Englisch - Russisch ist auch gut zu beherrschen.

    Ein ähnliches Bild tritt mehr oder weniger in allen Sprachpaaren auf. Überall verändert sich etwas, ständig tauchen neue Spieler auf, ihre Qualität verändert sich, Modelle werden umgeschult. Sie sehen, es gibt stabile Anbieter, deren Qualität sich nicht ändert. In diesem Fall sind die stabilen eher tot, weil es andere instabile gibt, deren Qualität sich mehr oder weniger verbessert. Das ist eine gute Geschichte, sie verbessern sich fast ständig.



    Wenn Sie eine komplexere Metrik für die Preisqualität berechnen, gibt es stabile Verbesserungen. Dies bedeutet, dass die Kosten für qualitativ hochwertige maschinelle Übersetzung ständig sinken. Mit jedem Monat und Jahr erhalten Sie immer mehr qualitativ hochwertige maschinelle Übersetzungen für weniger Geld. Das ist gut.


    Link von der Folie

    Neben Preisen und Qualität gibt es eine Vielzahl von Fragen, die auch bei der Auswahl eines bestimmten Anbieters wichtig sind. Dies sind alle Arten von Produktfunktionen, HTML-Unterstützung, XML, Unterstützung für schwierige und nicht so formatierte Formate, Massenmodus, automatische Erkennung der Sprache - ein beliebtes Thema, Unterstützung für Glossare, Anpassung und Zuverlässigkeit des Dienstes. Und was wir Entwicklerglück nennen, können Sie lesen, was wir unter Referenz verstehen.



    Dies ist ein Maschinenunfall. Unter DX verstehen wir eine Vielzahl verschiedener Aspekte, darunter die Verfügbarkeit einer guten Dokumentation, eindeutige Codes und Fehlermeldungen, die Einhaltung der HTTP-Standards, das Vorhandensein eines bestimmten Spielplatzes, um dynamisch mit der API zu spielen, die Verfügbarkeit einer bequemen Abrechnung und viele andere Dinge, die die Einführung stark beeinflussen Entscheidung, ob ein bestimmter Dienst verwendet werden soll oder nicht. Wenn der Entwickler flucht und eine neue API anschließt, ist dies ein schlechtes Signal. Der Entwickler kann sagen, dass wir es nicht brauchen, und tatsächlich sind einige APIs für bestimmte Aufgaben einfach nur schwer zu verwenden, da sie etwas nicht unterstützen, das Sie benötigen. Dies ist ein wichtiger Aspekt.

    Dies ist ein Beispiel für ein Diagramm für einen der echten Dienste, das im Vergleich zu anderen relativ gut ist. Bei vielen anderen Diensten wird dieses Diagramm näher bei null gesammelt, häufig gibt es keine normale Dokumentation, kein SDK, es ist unklar, wie mit der Abrechnung zu arbeiten ist, es ist unmöglich, Daten zur Nutzung des Dienstes hochzuladen, und vieles mehr. Es gibt keine Unterstützung. Dies ist ein komplexes Thema.

    Wir sind kürzlich auf einen großartigen Service gestoßen, der anscheinend öffentlich ist. Nach der Unterzeichnung des NDA ist die API-Dokumentation verfügbar. Es gibt viele seltsame Fälle. In der Tat ist es ein Entscheidungsfaktor. Wissen Sie von ihm, er kann irgendwann auftauchen.

    Es war Teil der Aktienmodelle, die auf dem Markt sind. Ich hoffe, ich habe das allgemeine Gefühl vermittelt, dass der Markt dynamisch ist. Es gibt viele Spieler und es gibt keinen Superleader. Jeder ist in einer Sache besser, und Sie müssen wahrscheinlich ein Portfolio von Anbietern aufbauen, wenn Sie in viele verschiedene Sprachen übersetzen möchten.

    Das zweite interessante Thema sind angepasste Modelle, die erst vor kurzem auf den Markt kamen. Wir haben begonnen, diese maßgeschneiderten Modelle zu messen, wir werden in Kürze einen Bericht veröffentlichen, und jetzt werde ich die vorläufigen Ergebnisse dieser Messung mitteilen.



    Viele Dienste unterstützen jetzt eine Art Anpassung. Es kann einige Glossare sein, es kann eine zusätzliche Schulung zu Ihren Daten sein, und es gibt viele Anbieter. Zunächst einige Top-End-Anbieter wie Google, Microsoft, IBM, einige exotischere und einige, von denen nur wenige wissen, aber sie lassen es auch zu.



    Wie vergleichen wir hier? Wir haben einen speziellen Bereich ausgewählt, Biohoney, es gibt nicht viele Lagermodelle dafür, einen Bereich mit spezieller Terminologie. Wir haben uns für ein Paar Englisch - Deutsch entschieden, einfach weil es für uns einfacher war, unter diesem Paar zusammenzubauen. Sie versuchten, diese Modelle an verschiedenen Trainingsmustern von 10.000 bis zu einer Million Sätzen zu trainieren. Wir haben aus 2.000 Sätzen einen Testdatensatz erstellt. Nach unseren Messungen für 2.000 Sätze ist die Metrik festgelegt und es ist möglich, verschiedene Dienste angemessen zu vergleichen. 50 Angebote reichen nicht aus.

    Wir haben uns für die hLEPOR-Metrik entschieden, und wir trainieren alle diese Anbieter mit unseren Datensätzen, messen die Qualität unseres Testdatensatzes und messen gleichzeitig die Qualität der Bestandsmodelle dieses Datensatzes, um zu verstehen, welche Basislinie, welcher Referenzpunkt sich an dieser Stelle befindet. Ich werde zeigen, wie sich die Qualität verändert und wie sie sich im Training entwickelt. An dieser Stelle sind die Betriebskosten dieser Modelle ein wichtiger Aspekt. Wir werden Ihnen dies im Bericht gesondert mitteilen, wenn wir all dies zusammenstellen. Aber dann wird die Situation komplizierter, Sie haben die Kosten für die Ausbildung von Modellen, etwas Zeit und Geld für die Ausbildung, nicht alles transparent. Es gibt Kosten für die Unterstützung dieses Modells und die Kosten für die Verwendung, es variiert von Dienst zu Dienst. Von diesen drei Komponenten bestehen die Betriebskosten. Dies ist ein wichtiger Aspekt, der vor dem Wechsel zur benutzerdefinierten Engine berechnet werden muss.



    Vorläufige Ergebnisse zeigen, dass es wirklich funktioniert. Hier ist ein Beispiel von Microsoft mit drei Versionen seiner API. Das Biomed-Modell funktioniert ziemlich schlecht, aber dies ist eine normale Geschichte. Man kann nicht davon ausgehen, dass Microsoft die schlechteste ist. Es funktioniert gut für generische Domains. In dieser Domäne wurde er anscheinend nicht ausgebildet. Dies ist eine normale Geschichte in der Zeit, um zu verstehen, dass das Aktienmodell für Ihre Domain nicht funktioniert, aber nur 10 Tausend Angebote ausreichen und Microsoft in Ihrer spezifischen Domain gut funktioniert. Und durch ständig steigende Datenmenge steigern Sie diese Qualität noch. Dies ist eine gute Geschichte, sie ist schnell angepasst und kann verwendet werden.



    IBM, das Lagermodell funktioniert gut, aber Sie können die Qualität auch durch zusätzliche Schulungen steigern. Das ist nicht schlecht, die Qualität wächst normal. Eine Verbesserung von sogar 2% ist eine gute Verbesserung.



    Google AutoML, das kürzlich eingeführt wurde, funktioniert auch recht gut. Das Standardmodell selbst von guter Qualität erwies sich als für diesen bestimmten Datensatz geeignet, und Trainingsmodelle für 10 oder 100.000 Sätze verbessern die Qualität.



    Wenn all dies auf einem Bild gezeichnet ist, gibt es Microsoft, gibt es Google, gibt es eine Reihe von Aktienmodellen - Yandex, Deepl, Amazon, Google-Aktien, Microsoft-Aktien. Und es ist klar, dass dies in diesem speziellen Fall ein interessanter Fall ist. Wie kann man in einer ähnlichen Situation Entscheidungen treffen? Es ist notwendig zu verstehen, dass in Ihrer Datendomäne ein Aktienmodell schlecht ist, aber eine Art kann sich als gut herausstellen. Yandex, Google und Deepl, es stellt sich heraus, dass sie bei Biomede ganz normal funktionieren und sogar die Qualität einiger der trainierten Modelle übertreffen. Das ist interessant. Wenn Sie dies ganz am Anfang der Studie verstehen, können Sie damit aufhören und das Aktienmodell verwenden. Es ist toll.

    Auf der anderen Seite haben Sie eine gewisse Untergrenze für die Qualität, in Bezug auf die Sie die Verbesserungen weiter einschätzen können, um zu verstehen, ob sie das Geld wert sind oder nicht, was Sie dafür bezahlen werden. Und die stetige Zunahme der Trainingsdatenmenge pumpt diese Modelle recht gut. Sie können eine höhere Qualität erzielen. Im Allgemeinen verbessert sich die Servicequalität ständig, je nachdem, wie viele Daten Sie an sie gesendet haben. Denken Sie daran, dies sind nur Ihre Daten. Der Service verwendet sie nicht zum Trainieren Ihrer generischen Modelle. Dies ist ein wesentlicher Unterschied. Es hat sich immer noch nicht in ihren Köpfen festgesetzt, aber es ist passiert. Sie können sicher Daten senden, und der Dienst wird zukünftig nicht mit Ihnen in Konkurrenz treten.

    Wie gehen Sie bei der Auswahl der Cloud-Übersetzungsmaschine für Ihre spezifischen Aufgaben bewusst vor?



    Bereiten Sie den Testfall vor. Ohne ist es schwer zu vergleichen. Es ist möglich, mit Linguisten zu vergleichen, aber dies ist eine kostspielige Arbeit und schwer reproduzierbar.

    Wenn Sie einen Testfall vorbereitet haben, vergleichen Sie die auf dem Markt befindlichen Vorratsmodelle. Es kann sein, dass einige von Ihnen bereits zu Ihnen passen. Es passiert Wir haben festgestellt, dass bestimmte Dienste direkt funktionieren, zum Beispiel für juristische Dokumente oder für einige andere. Sie können sofort verwendet werden und nicht um spezielle Modelle zu trainieren. Sie müssen lediglich Ihren Motor finden, der mit ähnlichen Daten trainiert wurde. Entweder passen sie, oder sie setzen die untere Leiste für die Qualität, in der Sie weiterhin entweder maßgeschneiderte Lösungen, mit denen jemand zu Ihnen kommt, oder andere Cloud-Lösungen vergleichen, die Sie weiterbilden. Es ist eine gute Geschichte, Ihre Grundlinie zu kennen.

    Bereiten Sie ein Glossar und eine Art Schulungsgebäude vor, wenn Sie können. Und wenn Sie den Aufwand für das Sammeln solcher Datensätze aufwenden können, ist es sinnvoll, anpassbare Modelle auszuprobieren. Sie passen oder legen die Messlatte für einen Auftragnehmer fest, der eine sehr individuelle Entscheidung für Sie trifft. In jedem Fall erhöht dies wahrscheinlich Ihre Gesamtqualität. Und dann haben Sie die Wahl. Weitere reine Wirtschaftlichkeit - es lohnt sich, die Qualität des Geldes zu erhöhen, das Sie dafür zahlen oder nicht wert sind.


    Links von der Folie: erste , zweite , dritte , vierte , fünfte

    Wie können wir an diesem Ort helfen? Zu vielen Wir haben Berichte über den Vergleich von maschinellen Übersetzungssystemen, der neueste Bericht wird unter dem Link veröffentlicht und es gibt alle vorherigen. Wir versuchen, sie einmal im Viertel zu machen, sie sind frei, lesen sie, es gibt viele Details. Es ist viel detaillierter als das, was ich heute gesagt habe.

    In Kürze werden wir einen Bericht über kundenspezifische Modelle veröffentlichen, in dem wir detaillierter beschreiben werden, wie sich die Services nach der Schulung auf die Qualität beziehen und welche Kosten dies insgesamt hat. Wir haben eine einzige API für alle maschinellen Übersetzungsdienste. Eine Integration reicht aus, um die besten auf dem Markt verfügbaren Dienste zu nutzen. Wir haben ein SDK unter NodeJS, unter .NET eine CLI. Außerdem wird es bald eine API geben, mit der die Qualität der Modelle beurteilt werden kann. Sie können Ihre Daten hochladen und durch die ausgewählten Anbieter leiten. Zählen Sie die Metriken, senden Sie uns die resultierenden Daten, wir wählen das beste Modell aus. Dieser Prozess ist gut automatisiert, es ist viel billiger und einfacher zu wählen, was zu Ihrem speziellen Fall passt, und ihn zu nutzen - durch uns oder alleine.

    Bald werden wir Web-Tools für die Übersetzung haben. Nicht alle Benutzer, die Maschinenübersetzungen verwenden, möchten Integrationen schreiben, arbeiten sogar mit einer einzigen API. Dies ist eine klare Geschichte. Es ist möglich, verschiedene Dienste über den Browser auszuprobieren, zu verstehen, wer für Ihren Fall der beste ist, und ihn zu verwenden.

    Die wichtigsten Schlussfolgerungen sind, dass es keinen einzigen Führer gibt. Warten Sie nicht auf eine Super-Bewertung, die besagt, dass ein Anbieter der beste ist. Es ist nicht so. Oft müssen Sie ein Portfolio von Anbietern sammeln, um maximale Qualität zu gewährleisten. Die Qualität aller Lagermodelle verbessert sich ständig. Wir müssen dem folgen, um zu verstehen, dass ein Service erschienen ist oder von besserer Qualität ist als der Ihrer oder besser in Bezug auf das Geld. Der Markt für maschinelle Übersetzungen wird fragmentierter, Anbieter oder Modelle, die in speziellen Paketen geschult werden, erscheinen effizienter als allgemeine Anbieter. Erinnern Sie sich an den Deepl? Dies ist ein interessanter Anbieter, der es geschafft hat, aus seinen einzigartigen Daten zu lernen und Google in vielen Sprachpaaren zu schlagen.

    Denken Sie außerdem daran, dass Sie jetzt mit Ihren eigenen eindeutigen Daten Ihre Modelle in Cloud-Diensten trainieren und verwenden können. Die Qualität ist wahrscheinlich viel besser als die Standardmodelle und sicherlich besser als die falschen Modelle. Danke.

    Jetzt auch beliebt: