Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/75898
Título
Corpus Linguistics and Contrastive Analysis of Sensory Discourse: Applications for Bilingual (ES-EN) Text Production
Autor
Director o Tutor
Año del Documento
2025
Titulación
Doctorado en Estudios Ingleses Avanzados: Lenguas y Culturas en Contacto
Abstract
International professionals such as Spanish wine and olive oil experts need to write technical texts in English to participate in the international market. To achieve it, many L2 English professionals resort to language technologies to help them obtain domain-specific texts in English. However, available tools are often prone to linguistic and/or domain-specific mistakes. Not only that, but this problem is also aggravated for users of linguistically low-resource language varieties, who have few reliable tools at hand: when the available bilingual data is scarce or defective, it is not easy to develop a language- and domain-compliant writing tool. Such added limitation is also exacerbated by current neural systems’ need of big datasets to achieve SOTA performance. This dissertation proposes a data-centric Corpus Linguistics-informed intervention focused on terminology injection as a domain adaptation strategy for neural bilingual production of low-resource language varieties. On the one hand, a language model based on small comparable domain-specific monolingual corpora is used to select the most similar data that had been automatically downloaded from domain-specific, selected sources. On the other hand, a full-form Spanish-English glossary is employed as a terminological reference to filter or curate big corpora so that language- and domain-adequate equivalences are learned by the system. Additionally, a backtranslation approach is used to augment the datasets used to train the system. To assess the proposed domain adaptation protocol, a set of experimental Neural MT systems were evaluated and compared among them and with commercial system Google Translate from three perspectives: automated metrics, human judgement, and comparison to the gold-standard terminological reference. Results of the automated evaluation of the experimental and commercial systems suggest the domain-adapted systems outperform Google Translate in the translation of wine and olive oil tasting notes. Nevertheless, according to human judgment, the best-scoring experimental system is outperformed by Google Translate in terms of general performance and amount and severity of terminological errors. Most importantly, the findings show an improvement in the terminological performance of the experimental systems after the training using the domain-specific curated data. These results are in line with or surpass previous experimental systems trained on different data-centric domain adaptation strategies based on terminology injection which are usually more computationally demanding and less efficient than the techniques here proposed. However, diversity in evaluation frameworks, language pairs, and lack of detailed results often hinder comparability with previous literature. In sum, and in spite of the many limitations of the study, this dissertation shows the potential of Corpus Linguistics for the development of domain-adapted neural language production tools aimed at aiding Spanish professionals of linguistically low-resource fields successfully engage in international professional communication. Las empresas españolas de vino y aceite de oliva son actores internacionales que requieren la producción de textos técnicos en inglés para competir en el mercado global. Para ello, muchos recurren a herramientas lingüísticas para obtener textos en inglés especializado en su campo. Sin embargo, las aplicaciones disponibles suelen cometer errores lingüísticos y/o relacionados con el campo de especialidad. Este problema se agrava en el caso de los usuarios de variedades lingüísticas poco representadas: cuando los datos bilingües disponibles son escasos o de baja calidad, resulta complicado desarrollar tecnologías de asistencia a la escritura fiables a nivel lingüístico y del campo de especialidad. Esta limitación se ve exacerbada, además, por la gran cantidad de datos que requieren los sistemas neuronales actuales para lograr un rendimiento aceptable y competitivo. Esta tesis propone una intervención inspirada en la Lingüística de corpus y basada en la inyección de terminología como estrategia de adaptación al campo, con el objetivo de mejorar la producción neural bilingüe de variedades lingüísticas especializadas y de escasos recursos. En primer lugar, se utiliza un modelo lingüístico basado en pequeños corpus monolingües comparables especializados para seleccionar los datos más similares de un big dataset descargado de fuentes especializadas. En segundo lugar, un glosario morfológico español-inglés sirve como referencia terminológica para filtrar ese gran corpus de entrenamiento, de modo que el sistema aprenda las equivalencias adecuadas a la lengua meta y al campo de especialidad. Por último, la técnica de la retrotraducción se emplea para aumentar los conjuntos de datos de entrenamiento. Para evaluar este protocolo de adaptación al campo de especialidad, se analizaron diversos sistemas experimentales de traducción automática neuronal y se compararon con el sistema comercial Google Translate desde tres perspectivas: métricas automáticas, evaluaciones humanas y comparación con la referencia terminológica utilizada. Los resultados de la evaluación automática sugieren que los sistemas adaptados al campo de especialidad superan a Google Translate en la traducción de notas de cata de vino y aceite de oliva. No obstante, según la evaluación humana, Google Translate supera al mejor sistema experimental en rendimiento general y cantidad y gravedad de los errores terminológicos. Además, los resultados muestran una mejora en el rendimiento terminológico de los sistemas experimentales tras el entrenamiento con los datos curados. Estos resultados igualan o superan a los obtenidos mediante otras estrategias de adaptación de dominios centradas en datos y basadas en la inyección de terminología, que suelen tener un mayor consumo de recursos computacionales y ser menos eficientes que las técnicas aquí propuestas. Sin embargo, la diversidad de marcos de evaluación y la falta de resultados detallados dificultan la comparación entre estudios. En conclusión, a pesar de las limitaciones del estudio, esta tesis demuestra el potencial de la Lingüística de corpus para desarrollar herramientas neuronales de producción de lenguas de especialidad destinadas a ayudar a los profesionales españoles de campos de escasos recursos lingüísticos a participar con éxito en la comunicación profesional internacional.
Materias (normalizadas)
Filología inglesa
Materias Unesco
5701.13 Lingüística Aplicada a la Traducción E Interpretación
Palabras Clave
English Philology
Filología inglesa
Translation and interpretation
Traducción e interpretación
General Linguistica
Lingüística general
Computer Science
Ciencias de la computación
Departamento
Escuela de Doctorado
Idioma
eng
Tipo de versión
info:eu-repo/semantics/publishedVersion
Derechos
embargoedAccess
Collections
- Tesis doctorales UVa [2396]
Files in this item
