<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-05-05T21:28:10Z</responseDate><request verb="GetRecord" identifier="oai:uvadoc.uva.es:10324/63040" metadataPrefix="dim">https://uvadoc.uva.es/oai/request</request><GetRecord><record><header><identifier>oai:uvadoc.uva.es:10324/63040</identifier><datestamp>2023-11-16T20:02:04Z</datestamp><setSpec>com_10324_38</setSpec><setSpec>col_10324_787</setSpec></header><metadata><dim:dim xmlns:dim="http://www.dspace.org/xmlns/dspace/dim" xmlns:doc="http://www.lyncode.com/xoai" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.dspace.org/xmlns/dspace/dim http://www.dspace.org/schema/dim.xsd">
<dim:field mdschema="dc" element="contributor" qualifier="advisor" lang="es" authority="cbcbd555fb88af6d" confidence="600" orcid_id="0000-0003-1460-158X">Cardeñoso Payo, Valentín</dim:field>
<dim:field mdschema="dc" element="contributor" qualifier="advisor" lang="es" authority="d2c47b79887397a2" confidence="600" orcid_id="">Escudero Mancebo, David</dim:field>
<dim:field mdschema="dc" element="contributor" qualifier="author" authority="cf6a503e-0d3f-4dd9-9ee5-c2b94c54859a" confidence="600" orcid_id="">Peñas Pérez, Irene</dim:field>
<dim:field mdschema="dc" element="contributor" qualifier="editor" lang="es" authority="EDUVA32" confidence="600" orcid_id="">Universidad de Valladolid. Escuela de Ingeniería Informática de Valladolid</dim:field>
<dim:field mdschema="dc" element="date" qualifier="accessioned">2023-11-16T14:34:04Z</dim:field>
<dim:field mdschema="dc" element="date" qualifier="available">2023-11-16T14:34:04Z</dim:field>
<dim:field mdschema="dc" element="date" qualifier="issued">2023</dim:field>
<dim:field mdschema="dc" element="identifier" qualifier="uri">https://uvadoc.uva.es/handle/10324/63040</dim:field>
<dim:field mdschema="dc" element="description" qualifier="abstract" lang="es">La síntesis de voz es un área de investigación en constante evolución, y que está siendo, en&#xd;
la actualidad, un campo de investigación para las DNN generativas. En este trabajo se aborda&#xd;
la necesidad de desarrollar un sistema de síntesis de voz en español para superar las limitaciones&#xd;
lingüísticas que existen en este campo en el idioma español y tratar de mejorar la accesibilidad&#xd;
como puede ser en los asistentes virtuales. El objetivo del TFM se centra en explorar el uso&#xd;
de técnicas neuronales de última generación para crear un modelo base español, a partir de un&#xd;
conjunto de datos en castellano. Más tarde, se procede a optimizar, para después realizar un finetuning&#xd;
con otro conjunto de datos nuevo, obteniendo de esta manera una serie de modelos en&#xd;
español. Por último, se evalúan y se extraen una serie de conclusiones. Para la consecución de este&#xd;
objetivo, se hace uso de la herramienta NeMo. De esta manera, se crea un modelo base español&#xd;
utilizando FastPitch y HiFiGAN. Además se dispone de 3 conjuntos de datos diferentes para&#xd;
realizar los modelos y los consecuentes experimentos. Se evalúan las señales sonoras generadas por&#xd;
los diferentes modelos, tanto el base, como los finetuned y más tarde se hacen dos evaluaciones,&#xd;
una objetiva con un conjunto de métricas, y otra perceptual, en la que se pregunta a una serie&#xd;
de personas sobre la calidad e inteligibilidad de los audios. En conclusión, mediante este trabajo&#xd;
se aborda la necesidad imperante de desarrollar conjuntos de datos y sistemas de síntesis de voz&#xd;
en español para superar las limitaciones lingüísticas y mejorar la accesibilidad en aplicaciones&#xd;
como los asistentes virtuales en castellano.</dim:field>
<dim:field mdschema="dc" element="description" qualifier="abstract" lang="es">Speech synthesis is an area of research in constant evolution, and is currently a field of research&#xd;
for generative DNN. The aim of the Master’s Dissertation is to explore the use of state-of-the-art&#xd;
neural techniques to create a Spanish base model from a Spanish dataset. Later, we proceed to&#xd;
optimize, and then perform a fine-tuning with another new dataset, obtaining in this way a series&#xd;
of models in Spanish. Finally, they are evaluated and a series of conclusions are drawn. In order&#xd;
to achieve this objective, the NeMo tool is used. In this way, a Spanish base model is created&#xd;
using FastPitch and HiFiGAN. In addition, three different datasets are available to perform the&#xd;
models and the consequent experiments. The sound signals generated by the different models,&#xd;
both the base and the finetuned, are evaluated and later two evaluations are made, an objective&#xd;
one with a set of metrics, and a perceptual one, in which a series of people are asked about the&#xd;
quality and intelligibility of the audios. In conclusion, this work addresses the imperative need&#xd;
to develop datasets and speech synthesis systems in Spanish to overcome linguistic limitations&#xd;
and improve accessibility in applications such as virtual assistants in Spanish.</dim:field>
<dim:field mdschema="dc" element="description" qualifier="sponsorship" lang="es">Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)</dim:field>
<dim:field mdschema="dc" element="description" qualifier="degree" lang="es">Máster en Ingeniería Informática</dim:field>
<dim:field mdschema="dc" element="format" qualifier="mimetype" lang="es">application/pdf</dim:field>
<dim:field mdschema="dc" element="language" qualifier="iso" lang="es">spa</dim:field>
<dim:field mdschema="dc" element="rights" qualifier="accessRights" lang="es">info:eu-repo/semantics/openAccess</dim:field>
<dim:field mdschema="dc" element="rights" qualifier="uri" lang="*">http://creativecommons.org/licenses/by-nc-nd/4.0/</dim:field>
<dim:field mdschema="dc" element="rights" lang="*">Attribution-NonCommercial-NoDerivatives 4.0 Internacional</dim:field>
<dim:field mdschema="dc" element="subject" qualifier="classification" lang="es">TTS</dim:field>
<dim:field mdschema="dc" element="subject" qualifier="classification" lang="es">NeMo</dim:field>
<dim:field mdschema="dc" element="subject" qualifier="classification" lang="es">Finetuning</dim:field>
<dim:field mdschema="dc" element="subject" qualifier="classification" lang="es">DNN</dim:field>
<dim:field mdschema="dc" element="title" lang="es">Estudio de la conversión texto a voz basada en DNN: modelo base y fine-tuning</dim:field>
<dim:field mdschema="dc" element="type" lang="es">info:eu-repo/semantics/masterThesis</dim:field>
</dim:dim></metadata></record></GetRecord></OAI-PMH>