• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Parcourir

    Tout UVaDOCCommunautésPar date de publicationAuteursSujetsTitres

    Mon compte

    Ouvrir une session

    Statistiques

    Statistiques d'usage de visualisation

    Compartir

    Voir le document 
    •   Accueil de UVaDOC
    • PUBLICATIONS SCIENTIFIQUES
    • Grupos de Investigación
    • Entornos de Computación Avanzada y Sistemas de Interacción Multimodal (ECA-SIMM)
    • ECA-SIMM - Artículos de revista
    • Voir le document
    •   Accueil de UVaDOC
    • PUBLICATIONS SCIENTIFIQUES
    • Grupos de Investigación
    • Entornos de Computación Avanzada y Sistemas de Interacción Multimodal (ECA-SIMM)
    • ECA-SIMM - Artículos de revista
    • Voir le document
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/82053

    Título
    Adaptación de ASR al habla de personas con síndrome de Down
    Autor
    Fernández-García, David
    Cardeñoso-Payo, Valentín
    González-Ferreras, César
    Escudero-Mancebo, David
    Año del Documento
    2024
    Editorial
    Sociedad Española para el Procesamiento del Lenguaje Natural
    Documento Fuente
    Procesamiento Del Lenguaje Natural, septiembre 2024, n. 73, p. 209-220.
    Résumé
    El habla de las personas con discapacidad intelectual (DI) plantea enormes retos a los sistemas de reconocimiento automático del habla (ASR), dificultando con ello el acceso de una población especialmente sensible a los servicios de información. En este trabajo se estudian las dificultades de los sistemas ASR para reconocer habla de personas DI y se muestra cómo esta limitación puede ser combatida con estrategias de ajuste fino de modelos. Se mide el rendimiento de ASR basado en whisper (v2 y v3) con un corpus de referencia de habla típica y habla DI, comprobando que hay diferencias importantes y significativas. Aplicando técnicas de fine-tuning, el rendimiento para hablantes DI mejora en al menos 30 puntos porcentuales. Nuestros resultados muestran que la inclusión de voz de personas DI en los corpus de entrenamiento es fundamental para mejorar la eficacia de los ASR.
    Palabras Clave
    ASR, Pathologic Speech, whisper, Data Augmentation
    ISSN
    1135-5948
    Revisión por pares
    SI
    DOI
    10.26342/2024-73-15
    Patrocinador
    Este trabajo ha sido realizado en el marco del proyecto PID2021-126315OB-I00 que ha sido financiado por MCIN / AEI / 10.13039/501100011033 / FEDER, EU.
    Version del Editor
    http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6611/4003
    Idioma
    spa
    URI
    https://uvadoc.uva.es/handle/10324/82053
    Tipo de versión
    info:eu-repo/semantics/publishedVersion
    Derechos
    openAccess
    Aparece en las colecciones
    • ECA-SIMM - Artículos de revista [11]
    Afficher la notice complète
    Fichier(s) constituant ce document
    Nombre:
    6611-6132-1-PB.pdf
    Tamaño:
    414.5Ko
    Formato:
    Adobe PDF
    Thumbnail
    Voir/Ouvrir

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10