- Sie befinden sich:
- Specials
- »
- Bachelor + Master Publishing
- »
- Technische Wissenschaften
- »
- Automatisierte Erstellung neuer Sprachkorpora: Ein Beispiel anhand des Lëtzebuergeschen
Technische Wissenschaften
» Blick ins Buch
» weitere Bücher zum Thema
» Buch empfehlen
» Buch bewerten Produktart: Buch
Verlag:
Bachelor + Master Publishing
Imprint der Bedey & Thoms Media GmbH
Hermannstal 119 k, D-22119 Hamburg
E-Mail: info@diplomica.de
Erscheinungsdatum: 03.2012
AuflagenNr.: 1
Seiten: 46
Abb.: 15
Sprache: Deutsch
Einband: Paperback
Sprachtechnologien, einmal ein Thema für theoretische Forschung und Science-Fiction-Filme, sind Alltag geworden. Dank stetig steigender Rechenleistung und jahrzehntelangem Forschungsaufwand kann man heute Sprachsteuerung vielfältig einsetzen - beim Autofahren, Telefonieren, Surfen und Arbeiten. Hinter dieser ausgereiften Technologie steckt viel Arbeitsaufwand. Um Spracherkennung und Sprachsynthese, also die künstliche Erzeugung einer Stimme, möglich zu machen, müssen große Mengen von Sprachdaten analysiert und verarbeitet werden. Forscher und Entwickler verwenden diese Daten, um ihrer Computersoftware beizubringen, einen Begriff zu erkennen oder richtig auszusprechen. Sprachtechnologien stehen und fallen mit der Menge guter Sprachdaten. Diese bestehen nicht nur aus reinen Aufnahmen sie können auch Informationen über die einzelnen Phoneme, Silben und Wörter beinhalten. Sie beschreiben, wo jeder Laut anfängt und aufhört, welche Wortteile verwendet wurden und wie die Wörter, Phrasen und Sätze akzentuiert sind. Alle diese Informationen müssen für jeden Laut, jede Silbe, jedes Wort und jeden Satz vorhanden sein. Die Bereitstellung solcher annotierten Sprachdaten ist ein gewaltiger Aufwand. Gebildete Fachkräfte müssen zwischen 30 Minuten und einer Stunde Zeit opfern um eine Minute der Sprachaufnahmen zu bearbeiten. Oft sind dutzende oder hunderte Stunden solcher bearbeiteter Sprachaufnahmen notwendig, um ein ausgereiftes Spracherkennungs- oder Sprachsynthesesystem zu entwickeln. Wenn man bedenkt, dass die Zeit der notwendigen manuellen Bearbeitung mit 30 bzw. 60 multipliziert werden muss, so ist ein hoher Kostenfaktor erkennbar. Dieser Faktor lässt sich für große Sprachen rechtfertigen, da die Endsysteme für eine große Benutzergruppe zur Verfügung stehen werden. Bei kleineren Sprachen ist der Entwicklungsaufwand genau so groß, da die Zielgruppe jedoch viel kleiner ist, kann er oft nicht gerechtfertigt werden. So führt es dazu, dass kleinere Sprachen oft bei der Entwicklung moderner Technologien benachteiligt werden. Diese Arbeit zeigt, wie man die Bearbeitung der Sprachdaten automatisieren kann um so den manuellen Bearbeitungsaufwand zu senken. Ziel ist es Sprachdaten, auch Sprachkorpora genannt, für kleinere Sprachen einfach und günstig verfügbar zu machen. Dabei soll ein Aligner etnwickelt werden, ein Programm, das Sprachaufnahmen und deren Transkription analysiert und den Lauten, Silben und Wörtern Zeitstempel zuweist. Die Zeitstempel müssen lediglich noch manuell überprüft werden.
Textprobe: Kapitel 3., Phonetische Alignierung als Erkennungsproblem: 3.1, Toolgestütze Spracherkennung mit dem Aligner: Der Aligner ist ein Werkzeug, das die phonetische Annotation von Sprachdaten automatisiert. Dafür bietet er eine Reihe von Funktionalitäten. Zuerst ermöglicht er die automatische Erstellung von phonetischen Transkriptionen anhand orthographisch transkribierter Daten. Weiterhin aliginiert er die phonetische Analyse mit der Sprachaufnahme. In diesem Schritt wird jedes Phonem mit einem Zeitstempel versehen, der markiert, wann das Phonem anfängt, und wann es endet. Letztendlich kann der Aligner Zeitstempel für Silben- und Wortgrenzen vergeben. Für jede solche Kategorie (Phonem-, Silben- und Wortmarkierung) wird eine separate Textdatei mit einer Sammlung von Zeitstempeln erstellt. 3.2, Funktionsweise: Die Alignierung und die Spracherkennung unterscheiden sich nicht stark voneinander. Ein Spracherkenner versucht anhand einer Grammatik festzustellen, welche Wörter ein Audiosignal enthält. Die Grammatik liefert dabei einen finiten Satz der möglichen Äußerungen. Der Erkenner versucht festzustellen, welche der in der Grammatik vorgegebenen Möglichkeiten am wahrscheinlichsten erscheint. 3.3, Phoneminventar und Aussprachelexikon: Der Inhalt der Aufnahme ist hierbei vorrangig, die genauen Zeitstempel der Einheits-(Wort-)grenzen sind dafür von wenig Bedeutung. Der Aligner ist auch ein Spracherkenner, jedoch mit dem umgekehrten Ansatz. Der Inhalt einer Sprachaufnahme ist bereits bekannt und so, zweitrangig. Dafür spielen die genauen Einheitsgrenzen die wichtige Rolle. Der Aligner macht eine Spracherkennung - jedoch mithilfe einer Grammatik, die nur eine bestimmte folge von Einheiten erlaubt. Bei dem Aligner sind die Einheiten nicht ganze Wörter, sondern einzelne Phoneme. Das Programm basiert auf zwei Technologien. Die erste ist das CELEX-Lexikon, das eine hochqualitative phonetische Transkription gestattet. Das CELEX enthält neben phonetischen auch morphosyntaktische Informationen, die eine Analyse auf Silben- und Wortebene ermöglichen. Der Aligner akzeptiert ausschließlich eine Folge von Phonemen als gültige Eingabe. Dank CELEX ist es dem Benutzer jedoch möglich, lediglich die orthographische Transkription einer Sprachaufnahme anzugeben. Die notwendige phonetische Transkription wird zur Laufzeit durch das Nachschlagen im CELEX-Lexikon erstellt. Sollte ein Eintrag nicht im Lexikon vorhanden sein, wird eine phonetische Transkription regelbasiert generiert. Die zweite wichtige Technologie ist das Konzept der Hidden-Markov-Modelle. Diese Technologie ist in dem HTK-Toolkit implementiert. Mittels HTK wird ein Hidden-Markov-Modell für jedes deutsche sowie jedes luxemburgische Phonem erstellt. Das HTK-Toolkit ist auch für das eigentliche Alignieren der Phoneme zuständig. 3.3, Phoneminventar und Aussprachelexikon: Das Phoneminventar des Aligners basiert auf dem deutschen Lautsystem. Der Aligner ist imstande jedes beliebige Phonem zu erlernen, also ein Hidden-Markov-Modell zu erstellen, für das er Beispieldaten zur Verfügung hat. Somit ist das Lautinventar des Programms stark von den verwendeten Daten abhängig. Das Deutsche Modul wurde mithilfe des Kiel-Korpus erstellt. Dementsprechend enthält die Menge der Phonemmodelle lediglich die Lautmodelle, die in dem Korpus auch vorkommen. Der Aligner hat u.a. die Aufgabe aus einer orthographischen Transkription eine phonetische Transkription zu generieren und die Phoneme mit der vorhandenen Audiodatei zu alignieren. Die Generierung einer phonetischen Transkription muss hier zuverlässig funktionieren. Falsche, oder falsch angeordnete Phoneme könnten das Alignieren zum Scheitern bringen. Die deutsche Aussprache basiert zum Großteil auf Regeln. Der Aligner kann diese Regeln verwenden, um die Aussprache eines beliebigen deutschen Wortes zu erraten. Bei Fremdwörtern oder Eigennamen funktioniert dieser Ansatz jedoch nicht zuverlässig. Für eine hochqualitative phonetische Transkription ist daher ein externes Lexikon notwendig, der von menschlicher Hand erstellt worden ist. Für den deutschen Aligner wird die CELEX-Datenbank verwendet. Da diese Sammlung umfangreich ist (395 611 Einträge), bleibt es dem Benutzer meistens erspart ein eigenes Aussprachelexikon erstellen zu müssen. Das CELEX enthält keine Einträge für das Luxemburgische. Für den Einsatz im Aligner wird deshalb das Aussprachelexikon aus dem 6000-Wierder-Korpus verwendet. Im Kontrast zum CELEX bietet dieses Lexikon keine syntaktischen Informationen zu Silbengrenen sowie Wortklassen. Aus diesem Grund wird in der luxemburgischen Version des Aligners auf die Analyse von Silben- sowie Wortgrenzen verzichtet. 3.4, Abbildung der lëtzebuergeschen Phoneme auf deutsche Sprachlaute: Die vorhandenen Korpora sind nur zum Teil phonetisch annotiert, jedoch nicht aligniert. Die manuelle Alignierung dieser Daten liegt außerhalb des Skopus dieser Arbeit. Es ist deswegen sinnvoll, sich des deutschen Aligners zu bedienen. Da der Aligner auf einem deutschen Korpus trainiert wurde, ist sein Phoneminventar nur teilweise für diesen Zweck geeignet. Einige der letzëbuergeschen Sprachphänomene werden damit nicht abgedeckt. Man kann jedoch die existierende, deutsche Version des Programms verwenden, um die ersten luxemburgischen Trainigsdaten zu alignieren. Davor muss man jedoch feststellen, welche deutschen Laute den fehlenden Lëtzebuergeschen Phonemen am ähnlichsten sind, d.h. sich möglicherweise in nur einem Feature unterscheiden.
Diplom-Linguist Syxtus Gaal hat ein Studium der Computerlinguistik und Informatik an der Universität Stuttgart abgeschlossen. Sein Studium war auf die Bereiche Phonetik, Spracherkennung und Sprachsynthese, sowie Architektur großer Anwendungssysteme fokussiert. Diese Ausbildung wurde durch einen Aufenthalt an der Trinity College in Dublin erweitert. Während des Studiums war er in die Entwicklung des ersten kommerziellen Spracherkenners für das Lëtzebuergesche involviert. Heute arbeitet Syxtus Gaal als Berater für Sprachtechnologien im Kundenservice. Er hilft führenden Unternehmen aus den Bereichen Versicherung, Telekommunikation, Finanzen und Einzelhandel, ihre Kundenbetreuung durch den gezielten Einsatz von Sprachtechnologien zu erweitern und zu optimieren.