• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Ricerca

    Tutto UVaDOCArchiviData di pubblicazioneAutoriSoggettiTitoli

    My Account

    Login

    Estadísticas

    Ver Estadísticas de uso

    Compartir

    Mostra Item 
    •   UVaDOC Home
    • PRODUZIONE SCIENTIFICA
    • Grupos de Investigación
    • Entornos de Computación Avanzada y Sistemas de Interacción Multimodal (ECA-SIMM)
    • ECA-SIMM - Artículos de revista
    • Mostra Item
    •   UVaDOC Home
    • PRODUZIONE SCIENTIFICA
    • Grupos de Investigación
    • Entornos de Computación Avanzada y Sistemas de Interacción Multimodal (ECA-SIMM)
    • ECA-SIMM - Artículos de revista
    • Mostra Item
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/82053

    Título
    Adaptación de ASR al habla de personas con síndrome de Down
    Autor
    Fernández-García, David
    Cardeñoso-Payo, Valentín
    González-Ferreras, César
    Escudero-Mancebo, David
    Año del Documento
    2024
    Editorial
    Sociedad Española para el Procesamiento del Lenguaje Natural
    Documento Fuente
    Procesamiento Del Lenguaje Natural, septiembre 2024, n. 73, p. 209-220.
    Abstract
    El habla de las personas con discapacidad intelectual (DI) plantea enormes retos a los sistemas de reconocimiento automático del habla (ASR), dificultando con ello el acceso de una población especialmente sensible a los servicios de información. En este trabajo se estudian las dificultades de los sistemas ASR para reconocer habla de personas DI y se muestra cómo esta limitación puede ser combatida con estrategias de ajuste fino de modelos. Se mide el rendimiento de ASR basado en whisper (v2 y v3) con un corpus de referencia de habla típica y habla DI, comprobando que hay diferencias importantes y significativas. Aplicando técnicas de fine-tuning, el rendimiento para hablantes DI mejora en al menos 30 puntos porcentuales. Nuestros resultados muestran que la inclusión de voz de personas DI en los corpus de entrenamiento es fundamental para mejorar la eficacia de los ASR.
    Palabras Clave
    ASR, Pathologic Speech, whisper, Data Augmentation
    ISSN
    1135-5948
    Revisión por pares
    SI
    DOI
    10.26342/2024-73-15
    Patrocinador
    Este trabajo ha sido realizado en el marco del proyecto PID2021-126315OB-I00 que ha sido financiado por MCIN / AEI / 10.13039/501100011033 / FEDER, EU.
    Version del Editor
    http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6611/4003
    Idioma
    spa
    URI
    https://uvadoc.uva.es/handle/10324/82053
    Tipo de versión
    info:eu-repo/semantics/publishedVersion
    Derechos
    openAccess
    Aparece en las colecciones
    • ECA-SIMM - Artículos de revista [11]
    Mostra tutti i dati dell'item
    Files in questo item
    Nombre:
    6611-6132-1-PB.pdf
    Tamaño:
    414.5Kb
    Formato:
    Adobe PDF
    Thumbnail
    Mostra/Apri

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10