• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Stöbern

    Gesamter BestandBereicheErscheinungsdatumAutorenSchlagwortenTiteln

    Mein Benutzerkonto

    Einloggen

    Statistik

    Benutzungsstatistik

    Compartir

    Dokumentanzeige 
    •   UVaDOC Startseite
    • WISSENSCHAFTLICHE ARBEITEN
    • Grupos de Investigación
    • Entornos de Computación Avanzada y Sistemas de Interacción Multimodal (ECA-SIMM)
    • ECA-SIMM - Artículos de revista
    • Dokumentanzeige
    •   UVaDOC Startseite
    • WISSENSCHAFTLICHE ARBEITEN
    • Grupos de Investigación
    • Entornos de Computación Avanzada y Sistemas de Interacción Multimodal (ECA-SIMM)
    • ECA-SIMM - Artículos de revista
    • Dokumentanzeige
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/82053

    Título
    Adaptación de ASR al habla de personas con síndrome de Down
    Autor
    Fernández-García, David
    Cardeñoso-Payo, Valentín
    González-Ferreras, César
    Escudero-Mancebo, David
    Año del Documento
    2024
    Editorial
    Sociedad Española para el Procesamiento del Lenguaje Natural
    Documento Fuente
    Procesamiento Del Lenguaje Natural, septiembre 2024, n. 73, p. 209-220.
    Zusammenfassung
    El habla de las personas con discapacidad intelectual (DI) plantea enormes retos a los sistemas de reconocimiento automático del habla (ASR), dificultando con ello el acceso de una población especialmente sensible a los servicios de información. En este trabajo se estudian las dificultades de los sistemas ASR para reconocer habla de personas DI y se muestra cómo esta limitación puede ser combatida con estrategias de ajuste fino de modelos. Se mide el rendimiento de ASR basado en whisper (v2 y v3) con un corpus de referencia de habla típica y habla DI, comprobando que hay diferencias importantes y significativas. Aplicando técnicas de fine-tuning, el rendimiento para hablantes DI mejora en al menos 30 puntos porcentuales. Nuestros resultados muestran que la inclusión de voz de personas DI en los corpus de entrenamiento es fundamental para mejorar la eficacia de los ASR.
    Palabras Clave
    ASR, Pathologic Speech, whisper, Data Augmentation
    ISSN
    1135-5948
    Revisión por pares
    SI
    DOI
    10.26342/2024-73-15
    Patrocinador
    Este trabajo ha sido realizado en el marco del proyecto PID2021-126315OB-I00 que ha sido financiado por MCIN / AEI / 10.13039/501100011033 / FEDER, EU.
    Version del Editor
    http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6611/4003
    Idioma
    spa
    URI
    https://uvadoc.uva.es/handle/10324/82053
    Tipo de versión
    info:eu-repo/semantics/publishedVersion
    Derechos
    openAccess
    Aparece en las colecciones
    • ECA-SIMM - Artículos de revista [11]
    Zur Langanzeige
    Dateien zu dieser Ressource
    Nombre:
    6611-6132-1-PB.pdf
    Tamaño:
    414.5Kb
    Formato:
    Adobe PDF
    Thumbnail
    Öffnen

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10