Unterstützt Tausende von Sprachen
Viele Sprachen auf der Welt sind vom Aussterben bedroht, und die Einschränkungen der aktuellen Technologie zur Spracherkennung und -generierung werden diesen Trend nur beschleunigen. Wir möchten den Menschen den Zugriff auf Informationen und die Nutzung von Geräten in ihrer bevorzugten Sprache erleichtern und stellen heute eine Reihe von Modellen der künstlichen Intelligenz (KI) vor, die ihnen dabei helfen könnten.
Massively Multilingual Speech (MMS)-Modelle erweitern die Text-to-Speech- und Speech-to-Text-Technologie von rund 100 Sprachen auf mehr als 1.100 – mehr als zehnmal so viele wie zuvor – und können außerdem mehr als 4.000 gesprochene Sprachen 40-mal identifizieren mehr als vorher.
Es gibt auch viele Anwendungsfälle für Sprachtechnologie – von Virtual- und Augmented-Reality-Technologie bis hin zu Messaging-Diensten –, die in der bevorzugten Sprache einer Person verwendet werden kann und die Stimme aller versteht.
Wir stellen unsere Modelle und unseren Code als Open-Source-Lösung zur Verfügung, damit andere in der Forschungsgemeinschaft auf unserer Arbeit aufbauen und dazu beitragen können, die Sprachen der Welt zu bewahren und die Welt näher zusammenzubringen.
Unser Vorgehen
Das Sammeln von Audiodaten für Tausende von Sprachen war unsere erste Herausforderung, da die größten vorhandenen Sprachdatensätze höchstens 100 Sprachen abdecken. Um dies zu überwinden, haben wir uns religiösen Texten wie der Bibel zugewandt, die in viele verschiedene Sprachen übersetzt wurden und deren Übersetzungen für die textbasierte Sprachübersetzungsforschung umfassend untersucht wurden.
Diese Übersetzungen verfügen über öffentlich zugängliche Audioaufnahmen von Personen, die diese Texte in verschiedenen Sprachen lesen. Im Rahmen des MMS-Projekts haben wir einen Datensatz mit Lesungen des Neuen Testaments in mehr als 1.100 Sprachen erstellt, der durchschnittlich 32 Stunden Daten pro Sprache lieferte.
By unter Berücksichtigung unbeschrifteter Aufnahmen verschiedener anderer christlicher religiöser Lesungen, wir haben zugenommen die Anzahl der verfügbaren Sprachen beträgt mehr als 4.000. Während diese Daten aus einem bestimmten Bereich stammen und häufig von männlichen Sprechern gelesen werden, zeigt unsere Analyse, dass unsere Modelle funktionieren für Männer- und Frauenstimmen gleich gut. Und obwohl der Inhalt der Audioaufnahmen religiöser Natur ist, zeigt unsere Analyse, dass dies das Modell nicht dazu verleitet, eine religiösere Sprache zu produzieren.
Vorwärts gehen
In Zukunft wollen wir die MMS-Abdeckung erweitern, um noch mehr Sprachen zu unterstützen, und uns auch der Herausforderung stellen, mit Dialekten umzugehen, die für die vorhandene Sprachtechnologie oft schwierig sind.
Lerne mehr über MMS.