Adaptación de ASR al habla de personas con síndrome de Down

Fernández García, David; Cardeñoso Payo, Valentín; González Ferreras, César; Escudero Mancebo, David

doi:10.26342/2024-73-15

Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/82053

Título

Adaptación de ASR al habla de personas con síndrome de Down

Autor

Fernández García, David

Cardeñoso Payo, Valentín

González Ferreras, César

Escudero Mancebo, David

Año del Documento

2024

Editorial

Sociedad Española para el Procesamiento del Lenguaje Natural

Documento Fuente

Procesamiento Del Lenguaje Natural, 2024, n. 73, p. 209-220.

Zusammenfassung

El habla de las personas con discapacidad intelectual (DI) plantea enormes retos a los sistemas de reconocimiento automático del habla (ASR), dificultando con ello el acceso de una población especialmente sensible a los servicios de información. En este trabajo se estudian las dificultades de los sistemas ASR para reconocer habla de personas DI y se muestra cómo esta limitación puede ser combatida con estrategias de ajuste fino de modelos. Se mide el rendimiento de ASR basado en whisper (v2 y v3) con un corpus de referencia de habla típica y habla DI, comprobando que hay diferencias importantes y significativas. Aplicando técnicas de fine-tuning, el rendimiento para hablantes DI mejora en al menos 30 puntos porcentuales. Nuestros resultados muestran que la inclusión de voz de personas DI en los corpus de entrenamiento es fundamental para mejorar la eficacia de los ASR.

Palabras Clave

ASR, Pathologic Speech, whisper, Data Augmentation

ISSN

1135-5948

Revisión por pares

DOI

10.26342/2024-73-15

Patrocinador

Este trabajo ha sido realizado en el marco del proyecto PID2021-126315OB-I00 que ha sido financiado por MCIN / AEI / 10.13039/501100011033 / FEDER, EU.

Version del Editor

http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6611/4003