Während es vor rund einem Jahr so aussah, als wäre auch der Bereich Sprachforschung bei Mozilla von den Einsparungen und Entlassungen betroffen, so erweist sich zumindest das Projekt Mozilla Common Voice erfreulicherweise als quicklebendig. Das belegt ein neues Update für die Sprachdatenbank.
Je mehr Stimmen, desto besser
Common Voice ist ein Open-Source-Projekt zur Erstellung einer freien Datenbank für Spracherkennungs-Software, um Geräten beizubringen, wie echte Menschen zu sprechen. Die Stimmdatenbank wird von Freiwilligen erstellt, die Beispielsätze in möglichst vielen Sprachen mit einem Mikrofon einsprechen. Die Datenbank steht unter der Creative Commons CCO-Lizenz und soll Sprache-zu-Text-Anwendungen (STT) voranbringen.
Update für Common Voice
Jetzt hat die Mozilla Foundation ein größeres Update angekündigt, das 16 neue Sprachen und 4.600 zusätzliche Stunden an eingesprochenen Beispielsätzen beinhaltet. In den letzten Monaten hat Mozilla außerdem drei Common Voice-Stipendiaten, eine Investition in Höhe von 3,4 Millionen US-Dollar von verschiedenen Stiftungen zur Förderung der Arbeit in Ostafrika und eine Partnerschaft mit NVIDIA angekündigt.
DeepSpeech
Die Datenbank wird unter anderem von Mozillas mit Tensor Flow realisierter Spracherkennungs-Engine DeepSpeech genutzt, aber auch die Mycroft AI sowie die Projekte Rhasspy und voice2json können damit umgehen. Ziel ist es, eine Alternative zu Amazons Alexa, Apples Siri oder Google Home zu entwickeln, da die kommerziellen Engines beispielsweise keine einzige afrikanische Sprache unterstützen. Eines der Ziele von Mozilla ist es, die Wortfehlerrate auf unter 10 % zu drücken. Die neuesten Versionen des vortrainierten englischsprachigen Modells erreichen dieses Ziel mit einer durchschnittlichen Wortfehlerrate von etwa 7,5 %.
Übergabe von DeepSpeech an Organisationen
Nach Mozillas Ansicht ist DeepSpeech an einem Punkt, wo es Sinn ergibt, weitere Anwendungen dafür zu entwickeln. Zu diesem Zweck plant das Unternehmen, das Projekt für die Weiterentwicklung an interessierte »Personen und Organisationen« zu übergeben. Mozilla sagt, dass es die kontinuierlichen Integrationsprozesse gestrafft hat, um DeepSpeech mit minimalen Abhängigkeiten zum Laufen zu bringen. Zudem will Mozilla ein Toolkit veröffentlichen, das Forschern, Unternehmen und allen interessierten Parteien dabei helfen soll, DeepSpeech zu nutzen, um sprachbasierte Lösungen zu entwickeln. Wer selbst einmal mit DeepSpeech experimentieren möchte, kann sich die Anleitung auf heise online als Grundlage nehmen, die beschreibt, wie man DeepSpeech auf dem Raspberry Pi testen kann. Auch die Entwicklung von Sprachmodellen für den eigenen Bedarf ist kein Hexenwerk.
Schreibe einen Kommentar