alle artikel ansehen
digitalisierung
08/06/2015

Bessere Interpretation der Zeichensetzung in Spracherkennungssystemen

mehr lesen

Herkömmliche automatische Spracherkennungssysteme sind mit der Problematik der Zeichensetzung konfrontiert. Selbst wenn eine Transkription keinen Fehler enthält, erschwert die fehlende Zeichensetzung und Formatierung des Textes seine Verwendung und erfordert eine beachtliche Arbeit des Nutzers. Dieser sieht sich mit einer  wilden Aufeinanderfolge von Wörtern ohne Grossbuchstaben, Punkten, Kommas und Segmenten unterschiedlicher Längen konfrontiert und er muss die fehlenden Informationen im Text manuell ergänzen.

Das Projekt PUNK, an dem das Idiap und die Firma recapp IT SA beteiligt sind, verfolgt das Ziel, Formatierungsmodule zu entwickeln, um dem Endnutzer eine intuitivere Interpretation des Textes und ein möglichst vollständiges Ergebnis der Transkription zu präsentieren, ist in der Reifephase. In einer ersten Phase behandelt das Projekt die Formatierung von Datumsangaben, Zahlen und Akronymen. In einem zweiten Schritt wird die Problematik der Zeichensetzung behandelt: Indem sich die entwickelten Algorithmen auf eine grosse Sammlung an bereits verfügbaren Texten stützen und deren Merkmale „erlernen“, können sie die Zeichensetzung für einen Text, bei dem diese nicht vorhanden ist, automatisch ermitteln. Um das System noch weiter zu verbessern, wird ebenfalls eine letzte Phase untersucht, in der die Sprechpausen und die Sprachmerkmale der Sprecher ausgewertet werden.

Das Walliser Parlament wird als erstes von dieser Technologieprofitien, in Form seines Mediaparl-Systems, das von recapp und Idiap bereitgestellt wird.