Les systèmes traditionnels de reconnaissance automatique de la parole se heurtent à la problématique de la ponctuation. Même quand une retranscription ne comporte aucune erreur, le manque de ponctuation et de formatage du texte rend son utilisation difficile et nécessite un travail conséquent par l’utilisateur. Celui-ci se voit présenter une suite de mots exemptée de majuscule, point, virgule, découpée en segments de différentes longueurs et doit donc compléter manuellement le texte avec les informations manquantes.
Le projet de mûrissement PUNK impliquant l’Idiap et la société recapp IT SA vise à développer des modules de formatage pour que l’interprétation du texte proposé à l’utilisateur final soit plus intuitive et que le résultat de la retranscription soit le plus complet possible. Dans un premier temps, le projet traite donc la mise en forme des dates, des nombres et des acronymes. Une seconde étape va s’occuper de la problématique de la ponctuation: en se basant sur un grand ensemble de textes déjà disponibles et en «apprenant» leurs caractéristiques, les algorithmes développés pourront trouver automatiquement la ponctuation d’un texte qui n’en comporte pas. Pour améliorer encore plus le système, une dernière étape utilisant les silences et les caractéristiques vocales des locuteurs sera aussi investiguée.
Le parlement valaisan sera le premier bénéficiaire de cette technologie via son système Mediaparl, fourni par Recapp et l’Idiap.