Details

Automatisierte Erstellung neuer Sprachkorpora: Ein Beispiel anhand des Lëtzebuergeschen


Automatisierte Erstellung neuer Sprachkorpora: Ein Beispiel anhand des Lëtzebuergeschen


1. Auflage

von: Syxtus Gaal

19,99 €

Verlag: Bachelor + Master Publishing
Format: PDF
Veröffentl.: 01.07.2013
ISBN/EAN: 9783863416423
Sprache: deutsch
Anzahl Seiten: 44

Dieses eBook enthält ein Wasserzeichen.

Beschreibungen

Sprachtechnologien, einmal ein Thema fur theoretische Forschung und Science-Fiction-Filme, sind Alltag geworden. Dank stetig steigender Rechenleistung und jahrzehntelangem Forschungsaufwand kann man heute Sprachsteuerung vielfaltig einsetzen - beim Autofahren, Telefonieren, Surfen und Arbeiten. Hinter dieser ausgereiften Technologie steckt viel Arbeitsaufwand. Um Spracherkennung und Sprachsynthese, also die kunstliche Erzeugung einer Stimme, moglich zu machen, mussen groe Mengen von Sprachdaten analysiert und verarbeitet werden. Forscher und Entwickler verwenden diese Daten, um ihrer Computersoftware beizubringen, einen Begriff zu erkennen oder richtig auszusprechen. Sprachtechnologien stehen und fallen mit der Menge guter Sprachdaten. Diese bestehen nicht nur aus reinen Aufnahmen; sie knnen auch Informationen ber die einzelnen Phoneme, Silben und Wrter beinhalten. Sie beschreiben, wo jeder Laut anfngt und aufhrt, welche Wortteile verwendet wurden und wie die Wrter, Phrasen und Stze akzentuiert sind. Alle diese Informationen mssen fr jeden Laut, jede Silbe, jedes Wort und jeden Satz vorhanden sein. Die Bereitstellung solcher annotierten Sprachdaten ist ein gewaltiger Aufwand. Gebildete Fachkrfte mssen zwischen 30 Minuten und einer Stunde Zeit opfern um eine Minute der Sprachaufnahmen zu bearbeiten. Oft sind dutzende oder hunderte Stunden solcher bearbeiteter Sprachaufnahmen notwendig, um ein ausgereiftes Spracherkennungs- oder Sprachsynthesesystem zu entwickeln. Wenn man bedenkt, dass die Zeit der notwendigen manuellen Bearbeitung mit 30 bzw. 60 multipliziert werden muss, so ist ein hoher Kostenfaktor erkennbar. Dieser Faktor lsst sich fr groe Sprachen rechtfertigen, da die Endsysteme fr eine groe Benutzergruppe zur Verfgung stehen werden. Bei kleineren Sprachen ist der Entwicklungsaufwand genau so gro, da die Zielgruppe jedoch viel kleiner ist, kann er oft nicht gerechtfertigt werden. So fhrt es dazu, dass kleinere Sprachen oft bei der Entwicklung moderner Technologien benachteiligt werden. Diese Arbeit zeigt, wie man die Bearbeitung der Sprachdaten automatisieren kann um so den manuellen Bearbeitungsaufwand zu senken. Ziel ist es Sprachdaten, auch Sprachkorpora genannt, fr kleinere Sprachen einfach und gnstig verfgbar zu machen. Dabei soll ein Aligner etnwickelt werden, ein Programm, das Sprachaufnahmen und deren Transkription analysiert und den Lauten, Silben und Wrtern Zeitstempel zuweist. Die Zeitstempel mssen lediglich noch manuell berprft werden.