• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Stöbern

    Gesamter BestandBereicheErscheinungsdatumAutorenSchlagwortenTiteln

    Mein Benutzerkonto

    Einloggen

    Statistik

    Benutzungsstatistik

    Compartir

    Dokumentanzeige 
    •   UVaDOC Startseite
    • STUDIENABSCHLUSSARBEITEN
    • Trabajos Fin de Máster UVa
    • Dokumentanzeige
    •   UVaDOC Startseite
    • STUDIENABSCHLUSSARBEITEN
    • Trabajos Fin de Máster UVa
    • Dokumentanzeige
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/63040

    Título
    Estudio de la conversión texto a voz basada en DNN: modelo base y fine-tuning
    Autor
    Peñas Pérez, Irene
    Director o Tutor
    Cardeñoso Payo, ValentínAutoridad UVA
    Escudero Mancebo, DavidAutoridad UVA
    Editor
    Universidad de Valladolid. Escuela de Ingeniería Informática de ValladolidAutoridad UVA
    Año del Documento
    2023
    Titulación
    Máster en Ingeniería Informática
    Zusammenfassung
    La síntesis de voz es un área de investigación en constante evolución, y que está siendo, en la actualidad, un campo de investigación para las DNN generativas. En este trabajo se aborda la necesidad de desarrollar un sistema de síntesis de voz en español para superar las limitaciones lingüísticas que existen en este campo en el idioma español y tratar de mejorar la accesibilidad como puede ser en los asistentes virtuales. El objetivo del TFM se centra en explorar el uso de técnicas neuronales de última generación para crear un modelo base español, a partir de un conjunto de datos en castellano. Más tarde, se procede a optimizar, para después realizar un finetuning con otro conjunto de datos nuevo, obteniendo de esta manera una serie de modelos en español. Por último, se evalúan y se extraen una serie de conclusiones. Para la consecución de este objetivo, se hace uso de la herramienta NeMo. De esta manera, se crea un modelo base español utilizando FastPitch y HiFiGAN. Además se dispone de 3 conjuntos de datos diferentes para realizar los modelos y los consecuentes experimentos. Se evalúan las señales sonoras generadas por los diferentes modelos, tanto el base, como los finetuned y más tarde se hacen dos evaluaciones, una objetiva con un conjunto de métricas, y otra perceptual, en la que se pregunta a una serie de personas sobre la calidad e inteligibilidad de los audios. En conclusión, mediante este trabajo se aborda la necesidad imperante de desarrollar conjuntos de datos y sistemas de síntesis de voz en español para superar las limitaciones lingüísticas y mejorar la accesibilidad en aplicaciones como los asistentes virtuales en castellano.
     
    Speech synthesis is an area of research in constant evolution, and is currently a field of research for generative DNN. The aim of the Master’s Dissertation is to explore the use of state-of-the-art neural techniques to create a Spanish base model from a Spanish dataset. Later, we proceed to optimize, and then perform a fine-tuning with another new dataset, obtaining in this way a series of models in Spanish. Finally, they are evaluated and a series of conclusions are drawn. In order to achieve this objective, the NeMo tool is used. In this way, a Spanish base model is created using FastPitch and HiFiGAN. In addition, three different datasets are available to perform the models and the consequent experiments. The sound signals generated by the different models, both the base and the finetuned, are evaluated and later two evaluations are made, an objective one with a set of metrics, and a perceptual one, in which a series of people are asked about the quality and intelligibility of the audios. In conclusion, this work addresses the imperative need to develop datasets and speech synthesis systems in Spanish to overcome linguistic limitations and improve accessibility in applications such as virtual assistants in Spanish.
    Palabras Clave
    TTS
    NeMo
    Finetuning
    DNN
    Departamento
    Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
    Idioma
    spa
    URI
    https://uvadoc.uva.es/handle/10324/63040
    Derechos
    openAccess
    Aparece en las colecciones
    • Trabajos Fin de Máster UVa [7003]
    Zur Langanzeige
    Dateien zu dieser Ressource
    Nombre:
    TFM-G1794.pdf
    Tamaño:
    3.900Mb
    Formato:
    Adobe PDF
    Thumbnail
    Öffnen
    Attribution-NonCommercial-NoDerivatives 4.0 InternacionalSolange nicht anders angezeigt, wird die Lizenz wie folgt beschrieben: Attribution-NonCommercial-NoDerivatives 4.0 Internacional

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10