Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/82053
Título
Adaptación de ASR al habla de personas con síndrome de Down
Autor
Año del Documento
2024
Editorial
Sociedad Española para el Procesamiento del Lenguaje Natural
Documento Fuente
Procesamiento Del Lenguaje Natural, septiembre 2024, n. 73, p. 209-220.
Abstract
El habla de las personas con discapacidad intelectual (DI) plantea enormes retos a los sistemas de reconocimiento automático del habla (ASR), dificultando con ello el acceso de una población especialmente sensible a los servicios de información. En este trabajo se estudian las dificultades de los sistemas ASR para reconocer habla de personas DI y se muestra cómo esta limitación puede ser combatida con estrategias de ajuste fino de modelos. Se mide el rendimiento de ASR basado en whisper (v2 y v3) con un corpus de referencia de habla típica y habla DI, comprobando que hay diferencias importantes y significativas. Aplicando técnicas de fine-tuning, el rendimiento para hablantes DI mejora en al menos 30 puntos porcentuales. Nuestros resultados muestran que la inclusión de voz de personas DI en los corpus de entrenamiento es fundamental para mejorar la eficacia de los ASR.
Palabras Clave
ASR, Pathologic Speech, whisper, Data Augmentation
ISSN
1135-5948
Revisión por pares
SI
Patrocinador
Este trabajo ha sido realizado en el marco del proyecto PID2021-126315OB-I00 que ha sido financiado por MCIN / AEI / 10.13039/501100011033 / FEDER, EU.
Version del Editor
Idioma
spa
Tipo de versión
info:eu-repo/semantics/publishedVersion
Derechos
openAccess
Aparece en las colecciones
Files in questo item








