Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/63040
Título
Estudio de la conversión texto a voz basada en DNN: modelo base y fine-tuning
Autor
Director o Tutor
Año del Documento
2023
Titulación
Máster en Ingeniería Informática
Abstract
La síntesis de voz es un área de investigación en constante evolución, y que está siendo, en
la actualidad, un campo de investigación para las DNN generativas. En este trabajo se aborda
la necesidad de desarrollar un sistema de síntesis de voz en español para superar las limitaciones
lingüísticas que existen en este campo en el idioma español y tratar de mejorar la accesibilidad
como puede ser en los asistentes virtuales. El objetivo del TFM se centra en explorar el uso
de técnicas neuronales de última generación para crear un modelo base español, a partir de un
conjunto de datos en castellano. Más tarde, se procede a optimizar, para después realizar un finetuning
con otro conjunto de datos nuevo, obteniendo de esta manera una serie de modelos en
español. Por último, se evalúan y se extraen una serie de conclusiones. Para la consecución de este
objetivo, se hace uso de la herramienta NeMo. De esta manera, se crea un modelo base español
utilizando FastPitch y HiFiGAN. Además se dispone de 3 conjuntos de datos diferentes para
realizar los modelos y los consecuentes experimentos. Se evalúan las señales sonoras generadas por
los diferentes modelos, tanto el base, como los finetuned y más tarde se hacen dos evaluaciones,
una objetiva con un conjunto de métricas, y otra perceptual, en la que se pregunta a una serie
de personas sobre la calidad e inteligibilidad de los audios. En conclusión, mediante este trabajo
se aborda la necesidad imperante de desarrollar conjuntos de datos y sistemas de síntesis de voz
en español para superar las limitaciones lingüísticas y mejorar la accesibilidad en aplicaciones
como los asistentes virtuales en castellano. Speech synthesis is an area of research in constant evolution, and is currently a field of research
for generative DNN. The aim of the Master’s Dissertation is to explore the use of state-of-the-art
neural techniques to create a Spanish base model from a Spanish dataset. Later, we proceed to
optimize, and then perform a fine-tuning with another new dataset, obtaining in this way a series
of models in Spanish. Finally, they are evaluated and a series of conclusions are drawn. In order
to achieve this objective, the NeMo tool is used. In this way, a Spanish base model is created
using FastPitch and HiFiGAN. In addition, three different datasets are available to perform the
models and the consequent experiments. The sound signals generated by the different models,
both the base and the finetuned, are evaluated and later two evaluations are made, an objective
one with a set of metrics, and a perceptual one, in which a series of people are asked about the
quality and intelligibility of the audios. In conclusion, this work addresses the imperative need
to develop datasets and speech synthesis systems in Spanish to overcome linguistic limitations
and improve accessibility in applications such as virtual assistants in Spanish.
Palabras Clave
TTS
NeMo
Finetuning
DNN
Departamento
Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
Idioma
spa
Derechos
openAccess
Collections
- Trabajos Fin de Máster UVa [7002]
Files in this item
