Recursos documentales y tecnológicos para la traducción de somatismos

  1. Hidalgo Ternero, Carlos Manuel
Dirigida per:
  1. Gloria Corpas Pastor Director/a

Universitat de defensa: Universidad de Málaga

Fecha de defensa: 06 de d’abril de 2022

Tribunal:
  1. Purificación Fernández Nistal Presidenta
  2. Miriam Seghiri Secretari/ària
  3. Andjelka Pejović Vocal

Tipus: Tesi

Teseo: 714773 DIALNET lock_openRIUMA editor

Resum

Motivación Son muchas las razones que nos han llevado a emprender el presente proyecto de tesis doctoral, cuyo objetivo principal es el análisis y diseño de herramientas y recursos electrónicos para la traducción de somatismos, es decir, unidades fraseológicas (en adelante, UF) que contienen lexemas referidos a partes del cuerpo humano o animal. Por un lado, las unidades fraseológicas se presentan de forma ubicua en cualquier tipo de discurso, registro o género textual. Más concretamente, se ha observado que más del 50 % de cualquier texto está formado por UF en sentido amplio (cfr. Sinclair, 1991; Jackendoff, 1995; Erman & Warren, 2000; Mel'čuk, 1995). En este contexto, la fraseología desempeña un papel fundamental en el desarrollo de la competencia traductora y en la evaluación de la calidad de las traducciones. En general, los principales retos que aún hoy continúan presentándose en el proceso translaticio son la identificación de la UF en el texto origen y su correcta comprensión en contexto, la selección del equivalente o estrategia de traducción adecuados, y la correcta reproducción de la carga semántico-pragmática de la unidad en el texto meta. El fallo en alguno de estos pasos conlleva irremediablemente un error de traducción. Por lo tanto, una de las principales motivaciones del presente proyecto de investigación es mejorar la competencia traductora de los estudiantes en lo que respecta a la fraseología, lo que conlleva inexorablemente el aprendizaje de estrategias heurísticas e instrumentales para explotar todas las posibilidades que ofrecen diferentes herramientas como los corpus, los sistemas de traducción automática y los glosarios, entre otras, a la hora de establecer equivalencias textuales para los somatismos en el texto meta. La importancia de enseñar y promover el uso de estas herramientas entre los estudiantes queda reflejada en recientes encuestas sobre el uso de las tecnologías por parte de los traductores (Zaretskaya et al., 2015 y 2018), en las que es posible observar que un número muy reducido de los traductores participantes en las encuestas trabaja con corpus (17 %). En estos estudios también se puede vislumbrar como solo el 36 % de los traductores entrevistados utiliza actualmente la traducción automática, aunque una mayoría (74 %) considera que podría sacar mayor partido de estos sistemas si proporcionaran una alta calidad. En este sentido, las últimas encuestas sobre el sector lingüístico de Europa muestran como la traducción automática ya está presente en más de la mitad de las Empresas de Servicios Lingüísticos (ESL) europeas participantes en el estudio (ELIS, 2018) y que el 78 % de ellas tiene previsto empezar a utilizar o aumentar el uso de la traducción automática o la posedición (ELIS, 2020). Estas y otras herramientas esenciales en la labor traductora serán analizadas a lo largo de las distintas secciones. En lo concerniente a la tipología de UF, hemos escogido analizar, de forma concreta, la fraseología somática por diversas razones: además de su carácter universal, y su elevada aparición y frecuencia de uso, los somatismos representan un grupo de unidades fraseológicas con autonomía y cohesión figurativas, entre otras características ya señaladas por Olza Moreno (2011): Como exponentes claros de este antropocentrismo lingüístico, se puede decir que los somatismos conforman, pues, una suerte de microsistema fraseológico, cuyo examen se hace imprescindible si se quiere abordar en profundidad el estudio de la configuración semántica específica de la fraseología en cualquier idioma (Cermak 2000, 55). […] se trata, además, de un tipo de corpus fraseológico —más o menos cerrado— que se articula en torno a unos criterios comunes y autónomos de recogida y que ofrece, además, garantías de poder ser estudiado de acuerdo con instrumentos y patrones analíticos ciertamente sistemáticos. (p. 38) Marco teórico A lo largo del presente proyecto de tesis, emplearemos la definición de unidad fraseológica propuesta por Corpas Pastor (1996): Unidades léxicas formadas por más de dos palabras gráficas en su límite inferior, cuyo límite superior se sitúa en el nivel de la oración compuesta. Dichas unidades se caracterizan por su alta frecuencia de uso, y de coaparición de sus elementos integrantes; por su institucionalización, entendida en términos de fijación y especialización semántica; por su idiomaticidad y variación potenciales; así como por el grado en el cual se dan todos estos aspectos en los distintos tipos. (Corpas Pastor, 1996, p.20). Así, entre las características principales de estas unidades se encuentran la fijación, es decir, «la propiedad que tienen ciertas expresiones de ser reproducidas en el hablar como combinaciones previamente hechas» (Zuluaga, 1975, p. 230), y, de forma facultativa, la idiomaticidad, «aquella propiedad semántica que presentan ciertas unidades fraseológicas, por la cual el significado global de dicha unidad no es deducible del significado aislado de cada uno de sus elementos constitutivos» (Corpas Pastor, 1996, p. 26). De estos dos rasgos surgen los dos tipos de variabilidad que pueden presentarse en las UF: la variabilidad estable (variantes y variaciones) y la variabilidad ocasional (manipulaciones), las cuales suponen un auténtico desafío en la labor traductora, como demostraremos a lo largo de los distintos capítulos y publicaciones. Otro de los conceptos clave en el presente proyecto de tesis doctoral es el de equivalencia fraseológica, para el cual Dobrovol’skij (2013) considera necesario distinguir dos aspectos distintos. Por un lado, encontramos la equivalencia en el sistema, es decir, la relación entre la UF de la lengua origen (LO) y la de la lengua meta (LM) en el nivel sistémico, y, por otro, la equivalencia en traducción, esto es, la relación entre ambas UF (LO y LM) pero esta vez en el nivel textual. Así, considera la equivalencia en traducción como una relación unilateral (unívoca, en la terminología de Mellado Blanco, 2015, p. 154) y la equivalencia sistémica como una relación bilateral entre las UF. Con respecto a esta dicotomía, existe un amplio consenso en que, en el proceso traslaticio, deben establecerse equivalencias funcionales o textuales antes que equivalencias sistémicas (cfr. Corpas Pastor, 2003; Dobrovol’skij, 2013; Hallsteinsdóttir, 2011). Hipótesis y objetivos En este contexto, presentamos la hipótesis principal de la presente tesis: que es posible analizar y diseñar herramientas y recursos electrónicos para la traducción de somatismos teniendo en cuenta dos de los principales retos que presentan como unidades fraseológicas: la variación y la manipulación. A partir de esta hipótesis inicial, se persiguen los siguientes objetivos a lo largo de este proyecto. El primer objetivo (Artículo 1) consistió en analizar el rendimiento de los actuales sistemas de traducción automática neuronal (TAN) en la traducción de somatismos, prestando especial atención a los principales retos que presentan la variación y la discontinuidad de estas unidades. De este primer objetivo se desprendieron los siguientes subobjetivos: 1. Contrastar el rendimiento de los dos sistemas TAN más robustos hasta la fecha —Google Translate y DeepL— en la traducción de los somatismos tomar el pelo y meter la pata¸ sus variantes nominales tomadura/tomada de pelo y metedura/metida de pata y otras variantes con un empleo casi exclusivo en la variedad de español europeo como meter la pata hasta el corvejón, meter la gamba y metedura/metida de gamba. 2. Evaluar si existe una correspondencia directa entre una mayor frecuencia de aparición de un somatismo concreto a lo largo de las variedades nacionales y un mejor rendimiento de la TAN o si, en cambio, determinadas variedades nacionales se ven privilegiadas sobre otras en la traducción de estos somatismos. 3. Analizar el rendimiento de estos sistemas TAN en la traducción de posibles palabras raras y fuera de vocabulario, como es el caso de las variantes con escasa frecuencia de aparición meter la pata hasta el corvejón, meter la gamba, y sus variantes nominales metedura de gamba y metida de gamba. A raíz de las dificultades detectadas, el segundo objetivo (Artículos 2-7), el más ambicioso, consistió en diseñar un sistema de preprocesamiento de unidades fraseológicas (gApp) para la conversión automática de los somatismos desde sus formas discontinuas hacia sus formas continuas, a fin de mejorar su detección y traducción automáticas. De este objetivo global, se desglosan los siguientes subobjetivos: 1. Analizar el rendimiento de Google Translate y DeepL en la traducción (ES>EN) de 560 casos con somatismos verbonominales en forma discontinua y continua, contrastando la conversión automática con gApp frente a aquella manual (Artículo 2). 2. Examinar la mejora que gApp supone para DeepL en las combinaciones ES>EN/DE y FR>EN/ES con 400 casos con somatismos verbonominales en forma discontinua y continua, nuevamente contrastando la conversión con gApp frente a la manual (Artículos 3 y 4). 3. Estudiar 300 casos con la forma discontinua y continua de variantes somáticas con la estructura de verbo + sintagma preposicional (V+SP), a fin de demostrar la mejora que supone gApp en el rendimiento de ModernMT, DeepL y Google Translate en las direccionalidades ES>EN/DE/FR/IT/PT (Artículo 5). 4. Analizar 400 casos de somatismos de estructura V+SP con gApp para los sistemas TAN de VIP, DeepL y Google Translate en la direccionalidad ES>EN (Artículo 6). 5. Examinar 400 casos de somatismos de estructura V+SP con gApp para ModernMT, DeepL y Google Translate en las direccionalidades IT>EN/DE (Artículo 7). El tercer objetivo (Artículos 8, 9 y 10) consistió en analizar el rendimiento de los corpus como herramientas documentales para la traducción de somatismos, para lo cual se establecieron los siguientes subobjetivos: 1. Elaborar una propuesta didáctica para enseñar las posibilidades que presentan los corpus en la correcta identificación e interpretación de las UF con vistas a la traducción, poniendo especial atención en las secuencias fraseológicas susceptibles de presentar múltiples lecturas. En este contexto, se examinaron de forma concreta dos corpus monolingües del español (CORPES XXI y esEuTenTen), un corpus monolingüe en inglés (enTenTen20) y dos paralelos multilingües (Europarl y Linguee, subcorpus inglés-español) (Artículo 8). 2. Contrastar el rendimiento de los corpus creados por la RAE (el CREA, en sus versiones tradicional y anotada, y el CORPES XXI), el Corpus del Español y Sketch Engine ante el desafío de la variación fraseológica (Artículo 9). 3. Analizar la funcionalidad Word Sketch de Sketch Engine como herramienta documental para aquellos casos de manipulación fraseológica en el TO en los que la ausencia de correspondencias fraseológicas biunívocas puede presentar problemas para la traducción (Artículo 10). El cuarto objetivo (Artículo 11) consistió en el desarrollo de un glosario de somatismos basado en un corpus, denominado Glossomatic, para la creación de equivalentes fraseológicos ad hoc en casos de manipulación fraseológica en el texto origen (TO). En este contexto, se diseñó una propuesta didáctica para dotar a los traductores en formación de diferentes estrategias y pasos que podrían poner en práctica con la ayuda del glosario para hacer frente a estos casos. Por último, el quinto objetivo (Artículo 12) consistió en contrastar diferentes herramientas y recursos electrónicos (corpus lingüísticos, recursos lexicográficos, la web, sistemas TAN, entre otros) para la creación de equivalencias textuales en aquellos casos con manipulación fraseológica en el TO. Para ello, en un estudio de caso llevado a cabo en el aula, se analizaron las propuestas de traducción de los alumnos para determinar qué recurso y herramienta eran más útiles en función del tipo de manipulación en el TO. Metodología Para alcanzar los cinco objetivos anteriormente expuestos, todas las publicaciones de esta tesis doctoral siguen una metodología basada en corpus, ya sea para el análisis y la extracción de somatismos en sus formas continuas y discontinuas (Artículos 1-7); para el estudio de las posibilidades que ofrecen los corpus en la traducción ante el desafío de la ambigüedad (Artículo 8), la variación (Artículo 9) o la manipulación fraseológica (Artículos 10 y 12), o para el diseño del glosario de somatismos Glossomatic (Artículo 11). De este modo, para el primer y segundo objetivos (Artículos 1-7), las UF objeto de análisis se extrajeron de esTenTen18 y Timestamped JSI web corpus 2014-2021 Spanish (para el español), frTenTen17 y Timestamped JSI web corpus 2014-2021 French (para el francés) y itTenTen16 y Timestamped JSI web corpus 2014-2021 Italian (para el italiano) en Sketch Engine mediante el lenguaje CQL (Corpus Query Language). A continuación, para ambos objetivos, se midió el rendimiento de los sistemas TAN ante la forma continua y discontinua de las UF examinadas siguiendo una evaluación de TA basada en ejemplo (Instance-based MT evaluation, Zaninello y Birch, 2020), con varios candidatos posibles en el texto meta para los somatismos tanto en su forma continua como discontinua. También se llevó a cabo un análisis de corpus para examinar los resultados relevantes (aquellos que contenían ejemplos reales de las formas discontinuas de los somatismos objeto de estudio) y los resultados irrelevantes (otras concordancias que contenían patrones análogos pero no relacionados con las secuencias idiomáticas), lo que nos permitió determinar las restricciones necesarias del mecanismo de detección y conversión de gApp. Para alcanzar el tercer objetivo (Artículos 8, 9 y 10), se analizó la interfaz de búsqueda de diferentes sistemas de gestión de corpus con el fin de explorar las posibilidades que ofrece cada uno de ellos en la consulta de somatismos ante los desafíos que presentan estas unidades: ambigüedad (Artículo 8), variación (Artículo 9) y manipulación (Artículo 10). En este contexto, se examinó tanto el sistema de concordancia simple de los corpus estudiados como funcionalidades adicionales, como la opción Coapariciones de CORPES XXI y la versión anotada de CREA (Artículos 5 y 6), o, dentro de Sketch Engine, el código CQL (Artículo 9) y Word Sketch (Artículo 10). En cuanto al cuarto objetivo (Artículo 11), el glosario Glossomatic se implementó en una base de datos relacional en Microsoft Access 2016, desarrollada por Microsoft y perteneciente a la suite de aplicaciones Microsoft Office. En este sentido, se analizaron tanto corpus paralelos, como OPUS 2 y Europarl7, como corpus monolingües en español (CORPES XXI y esEuTenTen), inglés (BNC y enTenTen20) y alemán (deTenTen1813 y DWDS-Kernkorpus [1900-1999]) para la extracción de los somatismos que constituyen Glossomatic. El análisis de los contextos de uso real de los somatismos en los corpus también permitió el diseño de las diferentes pestañas de consulta de Glossomatic (colocaciones, polaridad, registro, etc.), así como información contrastiva útil sobre los equivalentes de traducción en la combinación lingüística español-inglés-alemán. Por último, para alcanzar el objetivo 5 (Artículo 12), se analizó el rendimiento de diferentes herramientas, como corpus paralelos y monolingües, diferentes recursos lexicográficos, sistemas de Traducción Automática Neuronal, motores de búsqueda (Google, Bing, Metasearch, etc.) y rimadores, entre otros, en la traducción de seis casos con UF manipuladas en el TO: 3 de ellas pertenecientes a una tipología heterogénea de UF y 3 de ellas somatismos. Las diferentes propuestas de traducción de los 45 estudiantes participantes en el estudio se recogieron y analizaron en la herramienta de creación de formularios Googleform, que permite una fácil visualización y tratamiento de los resultados almacenados. Resultados Los resultados de los Artículos 1-7 permitieron observar como la variación y la discontinuidad fraseológica plantean serios desafíos para los sistemas TAN. En este sentido, en el Artículo 1 se pudo determinar que los dos sistemas TAN más robustos, DeepL y Google Translate, tuvieron enormes dificultades para la traducción de somatismos con escasa frecuencia de uso, y otras variantes marcadas diatópicamente que presentaban una mayor frecuencia en variedades nacionales de hispanoamérica. En cuanto a la discontinuidad, supuso un descenso del rendimiento de DeepL en un 13 % y de Google Translate en un 15 %, al compararla con la forma continua de estos somatismos (Artículo 1). A la vista de estos resultados, se diseñó el sistema de preprocesamiento de textos gApp para la detección y conversión automática de somatismos discontinuos a su forma continua. Este sistema demostró alcanzar una mejora media en la traducción de somatismos verbonominales con DeepL en un 10 % y con Google Translate en un 14,6 % en la direccionalidad ES>EN (Artículo 2). En los artículos 3 y 4, solo se analizó el rendimiento de DeepL, para el que gApp representó una mejora del 13,5 % en la direccionalidad ES>EN, del 9 % en ES>DE (Artículo 3), del 18 % en FR>EN y del 16,5 % en FR>ES (Artículo 4). En Artículo 5, el sistema gApp demostró seguir teniendo un impacto decisivo en la calidad de la traducción automática neuronal de las expresiones pluriverbales, ahora para una nueva tipología de somatismos (construcciones con la estructura de verbo + sintagma preposicional [V+SP]), nuevos sistemas TAN (ModernMT, además de DeepL y Google Translate) y adicionales direccionalidades de traducción (ES>EN/DE/FR/IT/PT), con una mejora media en el rendimiento de ModernMT en un 7,5 %, y de DeepL y Google Translate en un 6,5 %, es decir, una mejora global de 6,8 % a lo largo de los distintos sistemas TAN y las cinco diferentes direccionalidades. En Artículo 6, se contrastó la mejora que suponía gApp para el sistema TAN de VIP, diseñado por nuestro equipo de investigación Lexytrad, con respecto a DeepL y Google Translate en la direccionalidad ES>EN. En este contexto, los resultados globales mostraron una mejora media en el rendimiento de VIP en un 21,5 %, de DeepL en un 13,5 % y de Google Translate en un 8,5 %, es decir, una mejora media global del 14,5 % a lo largo de los distintos sistemas TAN. Finalmente, en Artículo 7, se adaptó el sistema gApp al italiano como lengua de partida y, posteriormente, se analizó la mejora que suponía en el rendimiento de los sistemas TAN de ModernMT, Google Translate y DeepL en las direccionalidades IT>EN y IT>DE. De esta manera, pudimos observar como los resultados globales en estas nuevas combinaciones lingüísticas continuaban en la línea de los experimentos previos, con una mejora media del 11,5 % en la direccionalidad IT>EN y del 8,3 % en IT>DE, es decir, una mejora media final del 9,9 % a lo largo de los distintos sistemas TAN para ambas direccionalidades. En cuanto a los corpus, examinamos las posibilidades que ofrecen en la traducción de somatismos ante los retos que plantean la ambigüedad (Artículo 8), la variación (Artículo 9) y la manipulación fraseológica (Artículo 10). En los Artículos 8 y 9, contrastamos el rendimiento de diferentes corpus (CORPES XXI, Linguee y Sketch Engine, en el Artículo 8, y CREA, en su versión tradicional y anotada, CORPES XXI y Sketch Engine, en el Artículo 9). Los resultados de ambos estudios permitieron observar como Sketch Engine era el sistema que ofrecía un mejor rendimiento tanto en términos cuantitativos como cualitativos. En el Artículo 10, analizamos las posibilidades de la funcionalidad de Sketch Engine, Word Sketch, en la creación de equivalencias fraseológicas ad hoc para UF manipuladas en el TO, con resultados muy prometedores: a lo largo de los 4 escenarios de traducción, la mayoría de los traductores en formación que participaron en el estudio fueron capaces de proporcionar no solo una UF manipulada, sino más concretamente un somatismo manipulado para el TM (97 % en el escenario de traducción 1, 74 % en el escenario 2, 51 % en el escenario 3 y 71 % en el escenario 4). Otros recursos para la traducción de somatismos manipulados se presentan en el Artículo 11, donde se describe el glosario Glossomatic basado en un corpus trilingüe, y en el Artículo 12, en el que se contrasta el rendimiento de diferentes herramientas electrónicas (corpus lingüísticos, recursos lexicográficos o la web, entre otros) para la creación de equivalencias textuales para UF manipuladas en el TO. A la luz de estos resultados, a lo largo de los 6 escenarios de traducción presentados, se pudo observar un uso predominante de los recursos lexicográficos (34,6 %) y de los corpus textuales (32,4 %). Las herramientas restantes fueron empleadas principalmente por los traductores en formación en dos escenarios de traducción específicos: mientras que en el caso 1, el 79,3 % de los traductores en formación hicieron uso de los motores de búsqueda para encontrar topónimos y gentilicios a través de los cuales pudieran recrear una manipulación análoga a la del TO; en el caso 2, el 25 % empleó rimadores para reproducir un efecto fonoestilístico específico en el TM. Lista de publicaciones asociadas La lista de publicaciones asociadas se presenta aquí en un orden correspondiente a los principales objetivos del proyecto, es decir, no es necesariamente un orden cronológico. Así, una vez analizado el rendimiento de los distintos sistemas TAN en casos de variación y discontinuidad fraseológica en el Artículo 1, los Artículos 2-7 presentan el sistema de preprocesamiento de textos gApp para la detección y conversión automática de somatismos discontinuos hacia sus formas continuas a fin de mejorar la calidad de los sistemas TAN. Posteriormente, se examinará el rendimiento de diferentes sistemas de gestión de corpus ante el reto de la ambigüedad (Artículo 8), la variación (Artículo 9) y la manipulación fraseológica (Artículo 10). En los Artículos 11 y 12 se presentan otras herramientas para la traducción de somatismos manipulados. A continuación, se ofrece un resumen para cada uno de los artículos. Artículo 1. Hidalgo-Ternero, C. M. (2020a). Google Translate vs. DeepL: analysing neural machine translation performance under the challenge of phraseological variation. En P. Mogorrón Huerta (Ed.), Análisis multidisciplinar del fenómeno de la variación en traducción e interpretación / Multidisciplinary Analysis of the Phenomenon of Phraseological Variation in Translation and Interpreting. MonTI Special Issue 6, 154-177. https://doi.org/10.6035/MonTI.2020.ne6.5 La presente investigación tuvo por objetivo analizar el rendimiento de dos sistemas de traducción automática neuronal—Google Translate y DeepL— en la traducción (ES>EN) de somatismos tales como tomar el pelo y meter la pata, sus variantes nominales (tomadura/tomada de pelo y metedura/metida de pata) y otras variantes con menor frecuencia de aparición tales como meter la pata hasta el corvejón, meter la gamba y metedura/metida de gamba. Los resultados de ambos sistemas se contrastaron y clasificaron según los diferentes somatismos se presentaban en su forma continua o discontinua (Anastasiou, 2010), es decir, dependiendo de si distintos n-gramas dividían la secuencia idiomática (o no), lo que pudo presentar serias dificultades para su detección y traducción automáticas. En general, los resultados obtenidos permitieron dilucidar en cuál de los diferentes escenarios Google Translate o DeepL ofrecía un mejor rendimiento ante el desafío de la variación y la discontinuidad fraseológica. Artículo 2. Hidalgo-Ternero, C. M., y Corpas Pastor, G. (2020b). Bridging the ‘gApp’: improving neural machine translation systems for multiword expression detection. Yearbook of Phraseology, 11(1), 61–80. https://doi.org/10.1515/phras-2020-0005 Artículo 3. Hidalgo-Ternero C. M., y Corpas Pastor, G. (2021b/en prensa). ReGap: a text preprocessing algorithm to enhance MWE-aware neural machine translation systems. En J. Monti, G. Corpas Pastor y R. Mitkov (Eds.), Recent Advances in MWU in Machine Translation and Translation technology. John Benjamins Publishing Company. Artículo 4. Hidalgo-Ternero C. M. (2021). El algoritmo ReGap para la mejora de la traducción automática neuronal de expresiones pluriverbales discontinuas (FR>EN/ES). En G. Corpas Pastor, M. R. Bautista Zambrana y C. M. Hidalgo-Ternero (Eds.), Sistemas fraseológicos en contraste: enfoques computacionales y de corpus (pp. 253-270). Comares Artículo 5. Hidalgo-Ternero C. M., y Corpas Pastor, G. (2021c/en prensa). Qué se traerá gApp entre manos… O cómo mejorar la traducción automática neuronal de variantes somáticas (ES>EN/DE/FR/IT/PT). En M. Seghiri y M. Pérez Carrasco (Eds.), Aproximación a la traducción especializada. Peter Lang. Artículo 6. Hidalgo-Ternero C. M., y Corpas Pastor, G. (2021d/en prensa). A la cabeza de la traducción automática neuronal asistida por gApp: somatismos en VIP, DeepL y Google Translate. En G. Corpas Pastor y M. Seghiri (Eds.), Aplicaciones didácticas de las tecnologías de la interpretación. Comares. Artículo 7. Hidalgo-Ternero C. M., Lista, F. y Corpas Pastor, G. (2021/en revisión). gApp-assisted NMT: how to improve the neural machine translation of discontinuous multiword expressions (IT>EN/DE). Language Resources and Evaluation. En los Artículos 2-7 se presentó la herramienta gApp, un sistema de preprocesamiento de textos basado en Python para la identificación y conversión automática de expresiones pluriverbales discontinuas hacia sus formas continuas con el fin de mejorar la TAN. A fin de evaluar su eficacia, se llevaron a cabo diversos experimentos. Por un lado, en Artículos 2-4 se examinaron construcciones verbonominales semifijas con el fin de evaluar en qué medida gApp consiguió optimizar el rendimiento de los dos principales sistemas TAN —Google Translate y DeepL— ante el desafío de la discontinuidad fraseológica en la direccionalidad ES>EN (Artículo 2), o el de DeepL en las direccionalidades ES>EN/DE (Artículo 3) o FR>EN/ES (Artículo 4). A este respecto, en Artículo 2 gApp demostró alcanzar una mejora media con DeepL en un 10 % y con Google Translate en un 14,6 %. En los artículos 3 y 4, para DeepL, gApp representó una mejora del 13,5 % en la direccionalidad ES>EN, del 9 % en ES>DE (Artículo 3), del 18 % en FR>EN y del 16,5 % en FR>ES (Artículo 4). Por otro lado, en Artículos 5-7 se examinaron construcciones con la estructura de Verbo + Sintagma Preposicional (V+SP), también con prometedores resultados. En Artículo 5 se demostró que este sistema puede mejorar el rendimiento de ModernMT en un 7,5 % así como el de DeepL y Google Translate en un 6,5 % en las direccionalidades ES>EN/DE/FR/IT/PT. En Artículo 6, gApp pudo mejorar el rendimiento de VIP en un 21,5 %, el de DeepL en un 13,5 % y el de Google Translate en un 8,5 % en la direccionalidad ES>EN. Finalmente, en Artículo 7, pudimos observar como gApp fue capaz de mejorar el rendimiento de ModernMT, DeepL y Google Translate, de media, en un 11,5 % en la direccionalidad IT>EN y en un 8,3 % en la direccionalidad IT>DE. Artículo 8. Hidalgo Ternero, C. M., y Corpas Pastor, G. (2020). Estrategias heurísticas con corpus para la enseñanza de la fraseología orientada a la traducción. En M. Seghiri (Ed.), La lingüística de corpus aplicada al desarrollo de la competencia tecnológica en los estudios de traducción e interpretación y la enseñanza de segundas lenguas (pp. 181-204). Peter Lang. https://doi.org/10.3726/b14734 En este trabajo se presentó una propuesta didáctica llevada a cabo en la asignatura Lengua y cultura “B” aplicadas a la Traducción e Interpretación (II) – inglés, impartida en el primer año del Grado en Traducción e Interpretación de la Universidad de Málaga. El principal objetivo de esta propuesta didáctica consistió en enseñar las posibilidades que presentaban los corpus (monolingües y bilingües) para la identificación y correcta interpretación de las UF con vistas a su traducción, poniendo especial atención a las secuencias fraseológicas susceptibles de presentar múltiples lecturas. Nos centramos en el caso de los somatismos y abordamos concretamente dos corpus monolingües del español (CORPES XXI y esEuTenTen), un corpus monolingüe en inglés (enTenTen20) y dos paralelos multilingües (Europarl y Linguee, subcorpus inglés-español). Con este telón de fondo, la propuesta quedó dividida en varias actividades formativas. Tras un primer seminario de introducción a los conceptos de corpus, fraseología y traducción, en las actividades formativas 2 y 3 localizamos en los corpus paralelos binomios textuales que presentaban errores de traducción debido a problemas de ambigüedad fraseológica y mostramos una serie de elementos desambigüadores que permitían una correcta identificación e interpretación de la UF, a fin de poder reproducir en el texto meta la carga semántico-pragmática de estas unidades. Es en este decisivo paso donde desempeña un papel fundamental el corpus como herramienta de documentación. Ahora bien, la localización e interpretación de UF en los corpus no está exenta de problemas. Por ello, y dada la necesidad desarrollar mecanismos que permitan detectar unidades de una manera más efectiva, en la última actividad formativa, los estudiantes aprendieron una serie de estrategias heurísticas para refinar sus búsquedas en los corpus consultados así como para seleccionar equivalencias adecuadas tras interpretar correctamente los resultados arrojados en dichos corpus. Artículo 9. Hidalgo-Ternero, C. M., y Corpas Pastor, G. (2021a). La variación fraseológica: análisis del rendimiento de los corpus monolingües como recursos de traducción. Études romanes de Brno, 42(1) 359-379. https://doi.org/10.5817/ERB2021-1-19 Las múltiples manifestaciones con las que se pueden presentar las unidades fraseológicas en el discurso (variación, flexión gramatical, discontinuidad…) hacen especialmente compleja la creación de patrones de búsqueda apropiados que permitan recuperarlas en todo su esplendor discursivo sin que ello implique un excesivo ruido documental. En este contexto, a lo largo del presente estudio se analizó el rendimiento de diferentes sistemas de gestión de corpus disponibles para el español en la consulta de las variantes fraseológicas tener entre manos, traer entre manos y llevar entre manos, e ir al pelo y venir al pelo. De forma concreta, se sometieron a examen dos corpus creados por la RAE (el CREA, en sus versiones tradicional y anotada, y el CORPES XXI), el Corpus del Español y Sketch Engine. Los resultados arrojados por este análisis permitieron vislumbrar qué sistema de gestión de corpus ofrecía un mejor rendimiento para los traductores ante el desafío de la variación fraseológica. Artículo 10. Hidalgo-Ternero, C. M. (2019a). Translating manipulated idioms (EN>ES) in the Word Sketch scenario. En G. Corpas Pastor y R. Mitkov (Eds.), Computational and Corpus-Based Phraseology (pp. 173-186). Springer Nature Switzerland. https://doi.org/10.1007/978-3-030-30135-4_13 Este trabajo presentó una propuesta didáctica para estudiantes del grado en Traducción e Interpretación de la Universidad de Málaga. Siguiendo una metodología basada en corpus, el objetivo principal de esta propuesta fue formar a los estudiantes para que pudieran sacarle el máximo partido a las posibilidades que ofrece Sketch Engine para la creación de equivalencias fraseológicas ad hoc. Más concretamente, examinamos el potencial de su funcionalidad Word Sketch como herramienta en aquellos casos en los que la manipulación de UF unida a la ausencia de correspondencias fraseológicas biunívocas pudieron plantear problemas a la traducción. El estudio de caso consistió en un seminario introductorio sobre la convergencia de corpus, fraseología y traducción, seguido de una sesión práctica en la que se presentaron a los traductores en formación algunos casos para los que tenían que crear equivalentes fraseológicos ad hoc para las UF manipuladas en el TO y debían justificar tanto el proceso como el producto de la traducción. En general, el análisis de los resultados obtenidos nos permitió determinar en qué medida los traductores en formación fueron capaces de traducir las UF manipuladas con Word Sketch. Artículo 11. Corpas Pastor, G., Hidalgo Ternero, C. M., y Bautista Zambrana, M. R. (2020). Teaching idioms for translation purposes: a trilingual corpus-based glossary applied to Phraseodidactics (ES/EN/DE). En F. Mena Martínez y C. Strohschen (Eds.), Teaching Phraseology in the XXI Century: New Challenges (pp. 75-93). Peter Lang. La fraseología desempeña un papel fundamental en el desarrollo de la competencia traductora y en la evaluación de la calidad de las traducciones. Sin embargo, hasta la fecha seguimos sin contar con suficiente investigación que ponga el foco en cómo enseñar las UF con vistas a su traducción. En este contexto, el presente estudio pretendió arrojar algo de luz sobre las múltiples aplicaciones de la fraseodidáctica a la enseñanza de la traducción. Seguimos una metodología basada en corpus para centrarnos, de forma concreta, en los somatismos en español, inglés y alemán. En este contexto, la estructura general de este trabajo se dividió en cuatro secciones. La primera sección comenzó exponiendo las dimensiones teóricas de la fraseología y su convergencia con la traducción. En la segunda sección se examinaron los principales componentes de un glosario de somatismos basado en un corpus, denominado Glossomatic, y cómo pudo emplearse para establecer equivalencias fraseológicas ad hoc en aquellos casos (analizados en la sección tres) en los que la manipulación de UF y la ausencia de correspondencias fraseológicas biunívocas podían plantear problemas a la traducción. En este sentido, dada la importancia de transmitir con precisión la carga pragmática, semántica y discursiva de una UF en un TM y, al mismo tiempo, de trasladar la manipulación representada en el TO, la sección cuatro presentó una propuesta didáctica en la que se enseñó a los estudiantes un conjunto de estrategias y pasos para implementar con la ayuda del glosario a fin de resolver estas cuestiones. En general, los resultados obtenidos en esta investigación resultarán útiles no solo para desarrollar la competencia fraseológica de los alumnos, sino también para dar protagonismo a la fraseodidáctica en los estudios de traducción. Artículo 12. Hidalgo Ternero C. M., y Corpas Pastor, G. (2021/In press). Herramientas y recursos electrónicos para la traducción de la manipulación fraseológica: un estudio de caso centrado en el estudiante. CLINA, An Interdisciplinary Journal of Translation, Interpreting and Intercultural Communication. En el presente artículo se analizó un estudio de caso llevado a cabo con estudiantes de la asignatura Traducción General «BA-AB» (II) - Inglés-Español / Español-Inglés, impartida en el segundo semestre del segundo curso del Grado en Traducción e Interpretación de la Universidad de Málaga. En él, en una primera fase, se les enseñó a los estudiantes a cómo sacar el máximo partido de diferentes recursos y herramientas documentales electrónicos (corpus lingüísticos, recursos lexicográficos o la web, entre otros) para la creación de equivalencias textuales en aquellos casos en los que, fruto del anisomorfismo fraseológico interlingüe, la modificación creativa de UF en el TO y la ausencia de correspondencias biunívocas presentaban serias dificultades para el proceso traslaticio. De esta manera, a una primera actividad formativa sobre la traducción de usos creativos de unidades fraseológicas le sucedió una sesión práctica en la que los alumnos tuvieron que enfrentarse a distintos casos de manipulación en el TO. Con el análisis de dichos resultados se pudo vislumbrar en qué medida los distintos recursos documentales ayudaron a los traductores en formación a superar el desafío de la manipulación fraseológica. Conclusiones y futuras líneas de investigación Este proyecto de tesis tenía como objetivo analizar y diseñar diferentes recursos y herramientas electrónicas para la traducción de somatismos ante el desafío de la variación y la manipulación fraseológica. La elección de esta temática estaba motivada principalmente por factores prácticos: muchos de los obstáculos a los que se enfrentan los traductores y los sistemas de TA están directamente causados por la fraseología en sentido amplio (Colson, 2008 y 2013), no solo por la ubicuidad de las unidades fraseológicas, sino también por sus características problemáticas intrínsecas, tales como anomalía sintáctica, no-composicionalidad, variación diasistemática, manipulación, ambigüedad, así como anisomorfismo fraseológico interlingüe, entre otros. En este contexto, los métodos aplicados en esta investigación nos permitieron examinar y diseñar diferentes herramientas electrónicas esenciales en la traducción de UF tales como los corpus, los sistemas TAN, los recursos lexicográficos y la web, con resultados muy prometedores. En cuanto a estas diferentes posibilidades que ofrecen las herramientas y recursos electrónicos analizados en la traducción de somatismos, existen todavía algunas áreas en las que nos gustaría profundizar aún más. Por ejemplo, con respecto a gApp (Artículos 2, 3 y 4), los prometedores resultados con somatismos verbonominales semifijos en las direccionalidades ES>EN/DE/FR/IT/PT, FR>EN/ES y IT>EN/DE invitan a ampliar su lexicón de detección y su mecanismo de conversión para examinar en qué medida puede mejorar también el rendimiento de los sistemas TAN para otras categorías de UF afectadas por la discontinuidad (como las construcciones de verbo con partícula), otras tipologías de UF (cromatismos, zoologismos, naturismos...), direccionalidades lingüísticas adicionales, así como otros sistemas TAN. Asimismo, también pretendemos analizar la escalabilidad de este modelo a otras tareas de PLN en las que el preprocesamiento de UF discontinuas puede desempeñar un papel importante (recuperación de información, resumen automático de textos, análisis de sentimientos, entre otros), con el fin de mejorar los sistemas TAN para el tratamiento de las UF. En cuanto a los corpus y los recursos lexicográficos como herramientas electrónicas esenciales en la traducción de somatismos, dados los prometedores resultados obtenidos con Sketch Engine (Artículo 8 y 6), las limitaciones de los recursos lexicográficos en el tratamiento de la fraseología (Artículo 9) así como las posibilidades que ofrece Glossomatic (Artículo 11), pretendemos diseñar un diccionario híbrido de somatismos que, además de proporcionar información lexicográfica útil (definición, registro, nociones, correspondencias en otras lenguas...), facilitará a los traductores el acceso directo a corpus de calidad para poder examinar un somatismo (y sus variantes) en contextos de uso real. De este modo, como se indica en Artículo 6, desarrollaremos un enfoque ecléctico que combinará lo mejor de ambos mundos: la concisión y la claridad de los diccionarios con la exhaustividad y la riqueza textual de los corpus. Bibliografía Corpas Pastor, G. (1996). Manual de fraseología española. Gredos. Dobrovol’skij, D. (2013). German-Russian idioms online: on a new corpus-based dictionary. En V. Selegej (Eds.), Computational Linguistics and Intellectual Technologies: Proceedings of the Annual International Conference “Dialogue”. RGGU. Erman, B., y Warren, B. (2000). The idiom principle and the open-choice principle. Text, 20(1), 29–62. https://doi.org/10.1515/text.1.2000.20.1.29 ELIS – European Language Industry Survey (2018). 2018 Language Industry Survey – Expectations and Concerns of the European Language Industry. https://ec.europa.eu/info/sites/default/files/2017_language_industry_survey_report_en.pdf ELIS – European Language Industry Survey (2020). 2020 Language Industry Survey – 2020 before & after COVID-19. https://ec.europa.eu/info/sites/default/files/2020_language_industry_survey_report.pdf Hallsteinsdóttir, E. (2011). Phraseological competence and the translation of phrasemes. En A. Pamiés-Bertrán, L. Luque-Nadal y J.-M. Pazos (Eds.), Multi-Lingual Phraseography: Second Language Learning and Translation Applications (pp. 279–288). Schneider Verlag. Jackendoff, R. S. (1995). The boundaries of the lexicon. En M. Everaert, E. van der Linden, A. Schenk, y R. Schroeder (Eds.), Idioms: Structural and psychological perspectives (pp. 133–165). Lawrence Erlbaum Associates. Mel’čuk, I. (1995). Phrasemes in language and phraseology in linguistics. En M. Everaert, E. van der Linden, A. Schenk, y R. Schroeder (Eds.), Idioms: Structural and psychological perspectives (pp. 167–232). Lawrence Erlbaum Associates. Mellado Blanco, C. (2015). Parámetros específicos de equivalencia en las unidades fraseológicas (con ejemplos del español y el alemán). Revista de Filología de la Universidad de La Laguna, 33, 153–174. Olza Moreno, I. (2011). Corporalidad y lenguaje: La fraseología somática metalingüística del español. Peter Lang. Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford University Press. Zaninello, A., y Birch, A. (2020). Multiword expression aware neural machine translation. En N. Calzolari, F. Béchet, P. Blache, K. Choukri, C. Cieri, T. Declerck, S. Goggi, H. Isahara. B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, S. Piperidis. Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020). 3816–3825. Zaretskaya, A. (2015). The use of machine translation among professional translators. En G. Corpas Pastor, A. Zaretskaya y M. Seghiri (Eds.) Proceedings of the EXPERT Scientific and Technological Workshop (pp. 1-12). Tradulex. Zaretskaya, A., Corpas Pastor, G. y Seghiri, M. (2015). Translators’ requirements for translation technologies: a user survey. En G. Corpas Pastor, M. Seghiri, R. Gutiérrez Florido y M. Urbano Mendaña (Eds.), Nuevos horizontes en los Estudios de Traducción e Interpretación (Trabajos completos)/New Horizons in Translation and Interpreting Studies (Full papers) (pp. 247-254). Tradulex. Zuluaga, A. (1975). La fijación fraseológica. Thesaurus, 30(2), pp. 223-247.