• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Parcourir

    Tout UVaDOCCommunautésPar date de publicationAuteursSujetsTitres

    Mon compte

    Ouvrir une session

    Statistiques

    Statistiques d'usage de visualisation

    Compartir

    Voir le document 
    •   Accueil de UVaDOC
    • PUBLICATIONS SCIENTIFIQUES
    • Escuela de Doctorado (ESDUVa)
    • Tesis doctorales UVa
    • Voir le document
    •   Accueil de UVaDOC
    • PUBLICATIONS SCIENTIFIQUES
    • Escuela de Doctorado (ESDUVa)
    • Tesis doctorales UVa
    • Voir le document
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/75898

    Título
    Corpus Linguistics and Contrastive Analysis of Sensory Discourse: Applications for Bilingual (ES-EN) Text Production
    Autor
    Sanz Valdivieso, Lucía
    Director o Tutor
    López Arroyo, María BelénAutoridad UVA
    Editor
    Universidad de Valladolid. Escuela de DoctoradoAutoridad UVA
    Año del Documento
    2025
    Titulación
    Doctorado en Estudios Ingleses Avanzados: Lenguas y Culturas en Contacto
    Résumé
    International professionals such as Spanish wine and olive oil experts need to write technical texts in English to participate in the international market. To achieve it, many L2 English professionals resort to language technologies to help them obtain domain-specific texts in English. However, available tools are often prone to linguistic and/or domain-specific mistakes. Not only that, but this problem is also aggravated for users of linguistically low-resource language varieties, who have few reliable tools at hand: when the available bilingual data is scarce or defective, it is not easy to develop a language- and domain-compliant writing tool. Such added limitation is also exacerbated by current neural systems’ need of big datasets to achieve SOTA performance. This dissertation proposes a data-centric Corpus Linguistics-informed intervention focused on terminology injection as a domain adaptation strategy for neural bilingual production of low-resource language varieties. On the one hand, a language model based on small comparable domain-specific monolingual corpora is used to select the most similar data that had been automatically downloaded from domain-specific, selected sources. On the other hand, a full-form Spanish-English glossary is employed as a terminological reference to filter or curate big corpora so that language- and domain-adequate equivalences are learned by the system. Additionally, a backtranslation approach is used to augment the datasets used to train the system. To assess the proposed domain adaptation protocol, a set of experimental Neural MT systems were evaluated and compared among them and with commercial system Google Translate from three perspectives: automated metrics, human judgement, and comparison to the gold-standard terminological reference. Results of the automated evaluation of the experimental and commercial systems suggest the domain-adapted systems outperform Google Translate in the translation of wine and olive oil tasting notes. Nevertheless, according to human judgment, the best-scoring experimental system is outperformed by Google Translate in terms of general performance and amount and severity of terminological errors. Most importantly, the findings show an improvement in the terminological performance of the experimental systems after the training using the domain-specific curated data. These results are in line with or surpass previous experimental systems trained on different data-centric domain adaptation strategies based on terminology injection which are usually more computationally demanding and less efficient than the techniques here proposed. However, diversity in evaluation frameworks, language pairs, and lack of detailed results often hinder comparability with previous literature. In sum, and in spite of the many limitations of the study, this dissertation shows the potential of Corpus Linguistics for the development of domain-adapted neural language production tools aimed at aiding Spanish professionals of linguistically low-resource fields successfully engage in international professional communication.
     
    Las empresas españolas de vino y aceite de oliva son actores internacionales que requieren la producción de textos técnicos en inglés para competir en el mercado global. Para ello, muchos recurren a herramientas lingüísticas para obtener textos en inglés especializado en su campo. Sin embargo, las aplicaciones disponibles suelen cometer errores lingüísticos y/o relacionados con el campo de especialidad. Este problema se agrava en el caso de los usuarios de variedades lingüísticas poco representadas: cuando los datos bilingües disponibles son escasos o de baja calidad, resulta complicado desarrollar tecnologías de asistencia a la escritura fiables a nivel lingüístico y del campo de especialidad. Esta limitación se ve exacerbada, además, por la gran cantidad de datos que requieren los sistemas neuronales actuales para lograr un rendimiento aceptable y competitivo. Esta tesis propone una intervención inspirada en la Lingüística de corpus y basada en la inyección de terminología como estrategia de adaptación al campo, con el objetivo de mejorar la producción neural bilingüe de variedades lingüísticas especializadas y de escasos recursos. En primer lugar, se utiliza un modelo lingüístico basado en pequeños corpus monolingües comparables especializados para seleccionar los datos más similares de un big dataset descargado de fuentes especializadas. En segundo lugar, un glosario morfológico español-inglés sirve como referencia terminológica para filtrar ese gran corpus de entrenamiento, de modo que el sistema aprenda las equivalencias adecuadas a la lengua meta y al campo de especialidad. Por último, la técnica de la retrotraducción se emplea para aumentar los conjuntos de datos de entrenamiento. Para evaluar este protocolo de adaptación al campo de especialidad, se analizaron diversos sistemas experimentales de traducción automática neuronal y se compararon con el sistema comercial Google Translate desde tres perspectivas: métricas automáticas, evaluaciones humanas y comparación con la referencia terminológica utilizada. Los resultados de la evaluación automática sugieren que los sistemas adaptados al campo de especialidad superan a Google Translate en la traducción de notas de cata de vino y aceite de oliva. No obstante, según la evaluación humana, Google Translate supera al mejor sistema experimental en rendimiento general y cantidad y gravedad de los errores terminológicos. Además, los resultados muestran una mejora en el rendimiento terminológico de los sistemas experimentales tras el entrenamiento con los datos curados. Estos resultados igualan o superan a los obtenidos mediante otras estrategias de adaptación de dominios centradas en datos y basadas en la inyección de terminología, que suelen tener un mayor consumo de recursos computacionales y ser menos eficientes que las técnicas aquí propuestas. Sin embargo, la diversidad de marcos de evaluación y la falta de resultados detallados dificultan la comparación entre estudios. En conclusión, a pesar de las limitaciones del estudio, esta tesis demuestra el potencial de la Lingüística de corpus para desarrollar herramientas neuronales de producción de lenguas de especialidad destinadas a ayudar a los profesionales españoles de campos de escasos recursos lingüísticos a participar con éxito en la comunicación profesional internacional.
    Materias (normalizadas)
    Filología inglesa
    Materias Unesco
    5701.13 Lingüística Aplicada a la Traducción E Interpretación
    Palabras Clave
    English Philology
    Filología inglesa
    Translation and interpretation
    Traducción e interpretación
    General Linguistica
    Lingüística general
    Computer Science
    Ciencias de la computación
    Departamento
    Escuela de Doctorado
    DOI
    10.35376/10324/75898
    Idioma
    eng
    URI
    https://uvadoc.uva.es/handle/10324/75898
    Tipo de versión
    info:eu-repo/semantics/publishedVersion
    Derechos
    embargoedAccess
    Aparece en las colecciones
    • Tesis doctorales UVa [2396]
    Afficher la notice complète
    Fichier(s) constituant ce document
    Nombre:
    TESIS-2466-250602.pdfEmbargado hasta: 2026-11-27
    Tamaño:
    15.00Mo
    Formato:
    Adobe PDF
    Voir/Ouvrir
    Attribution-NonCommercial-NoDerivatives 4.0 InternationalExcepté là où spécifié autrement, la license de ce document est décrite en tant que Attribution-NonCommercial-NoDerivatives 4.0 International

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10