IAT - UAM 2012

martes, 25 de diciembre de 2012

Aplicación práctica de la asignatura

MT en el programa Déjà Vu

Doy por finalizado este blog de Informática Aplicada a la Traducción con una última entrada sobre la aplicación práctica del programa Déjà Vu, un proyecto que debemos hacer para clase con la traducción de esta página web: http://www.on-channel.com/

La imagen que podéis ver a continuación es la interfaz del programa Déjà Vu, con los elementos del texto origen ya importados (archivo > nuevo > proyecto > seleccionar los archivos que queremos importar) y la traducción de los diferentes segmentos hecha. Gracias a las pestañas de arriba a la izquierda podemos hacer uso de distintas opciones como, por ejemplo, “traducción > propagar la traducción”, que nos sirve para no tener que rehacer la traducción de las frases que se van repitiendo.

Una vez tengamos toda la traducción hecha, debemos darle a "exportar archivo traducido", con lo que el programa creará en nuestro ordenador una carpeta llamada "es-es". Cuando se trata de traducir una página web, como en este caso, tenemos que tener una carpeta con las imágenes de dicha página web, de modo que después podamos copiar los archivos originales que estamos traduciendo junto con las imágenes guardadas en esa carpeta llamada “es-es”. Así, obtendremos un archivo en el que podemos pinchar para que salga nuestra página web ya traducida.

Este programa, tan útil para este tipo de traducciones y, sobre todo, para tener almacenados nuestros textos, se puede obtener en la página de Atril (http://atril.com/) donde encontraremos las distintas versiones del programa, con sus correspondientes precios, así como la versión gratuita, que permanece válida durante 30 días.

¡FELIZ NAVIDAD A TODOS!

miércoles, 5 de diciembre de 2012

Aprovechamiento de las MT

Crear una Memoria de Traducción

Una vez tengamos bien estructurada la teoría básica sobre las Memorias de Traducción y la segmentación de textos dentro de ellas podemos pasar a hablar sobre los procesos y programas con los que crear nuestra propia MT, algo que podemos llevar a cabo de dos formas: o bien utilizando el método de la alineación de textos a partir de bases de datos, del que ya hemos hablado en las entradas sobre corpus, o bien utilizando un método interactivo, basado en una forma de traducción interactiva. En este último, las nuevas traducciones quedan almacenadas para su uso inmediato (en el mismo texto) o futuro, lo que comporta una mayor calidad pero menor productividad a corto plazo. Además, con el método interactivo podemos hacer uso del trabajo en la red o, lo que es lo mismo, de la colaboración de distintos traductores para formar una MT.

Entre los documentos más apropiados para constituir una MT se encuentran: los textos con contenido repetitivo interno (propagación), que pueden ser documentos técnicos, como manuales de usuario y especificaciones de productos, o documentos jurídicos o legales, como contratos y patentes; las revisiones, es decir, la versión corregida de un texto anterior o las páginas web, la nueva edición de un manual, etc.; el aprovechamiento de textos (reciclado), que consiste en el trabajo para el mismo cliente, lo que implica el mantenimiento de terminología y preferencias estilísticas; y las actualizaciones sobre la marcha que, en un proceso normal, conllevan la necesidad de comparar la nueva versión con la antigua (Word), teniendo en cuenta que se puede empezar la traducción aunque la versión definitiva no esté completamente terminada.

Crear una MT es algo muy útil porque cuenta con numerosas ventajas entre las cuales cabe destacar la productividad, conseguida únicamente cuando se conoce ya un programa (curva de aprendizaje, cambios de entornos…), cuando la MT es representativa, cuando surge la necesidad de convertir formatos, etc. También destacan la calidad (el contenido de la MT debe ser bueno; mejora la coherencia de una traducción, o para un mismo cliente; necesidad de revisar y actualizar base de datos; se hacen menos revisiones que con procesadores de textos), el formato electrónico (evaluar la relevancia de un texto para su futura reutilización antes de usar un OCR) y la propiedad de la MT (un valioso recurso que reclaman traductores y clientes para el que aún no hay una clara solución).

Además, las MT integran otras herramientas, como la gestión terminológica, la traducción automática o la integración con procesador de textos (Word), así como la incorporación de un editor independiente y la compatibilidad con filtros de formatos diferentes. Entre los programas que cuentan con estas herramientas, destacamos Multiterm (Trados) y Déjà vu y Omega T (de acceso gratuito online).

FUENTE: Informática Aplicada a la Traducción, por María José López Chollet

domingo, 2 de diciembre de 2012

Componentes generales de las MT

Segmentación y coincidencias

A modo de continuación de la anterior entrada sobre Memorias de Traducción vamos a ver ahora algunas nociones básicas sobre la segmentación de textos que se lleva a cabo en este tipo de programas. Por lo general, los segmentos se definen siguiendo las reglas de puntuación y de ahí que la oración sea la unidad utilizada como segmento por defecto. Obviamente, nos surge un problema relacionado con siglas, abreviaturas, etc. ya que, al haber punto, el programa interpreta que se trata de final de oración y, por tanto, también de segmento.

Sin embargo, podemos modificar los criterios de segmentación y considerar párrafos completos como segmentos. Personalmente, creo que esto no es muy práctico porque los párrafos incluyen demasiada información y es casi imposible encontrar párrafos iguales en distintas traducciones, pero lo importante aquí es que tenemos dicha posibilidad. Ahora que ya sabemos lo que son los segmentos de las MT, pasamos a precisar cuáles son los distintos tipos de coincidencias entre ellos: exactas, plenas, parciales, terminológicas y por subsegmentos.

Las coincidencias exactas son aquellas en las que las dos cadenas de caracteres son iguales en lo relativo al texto, la puntuación y el formato, mientras que las coincidencias plenas son aquellas en las que el nuevo segmento sólo se diferencia por algunos elementos ciertamente variables como cifras, fechas, divisas, medidas, etc. Además, existe el “fuzzy matching”, que consiste en coincidencias parciales en las que el traductor como factor humano configura el “umbral de sensibilidad” de la traducción, aunque el programa siempre presenta los segmentos más próximos al original en primer lugar.

Por otro lado, existen las coincidencias terminológicas, que se basan en la consulta automática de diccionarios teniendo en cuenta que, aunque la MT no encuentre un término similar en la base de datos, siempre ofrece equivalencias. Finalmente, las coincidencias por subsegmentos tienen que ver con que los elementos de la comparación son bloques de segmentos, de modo que el programa puede generar un segmento a partir de trozos que encuentra en diferentes segmentos almacenados en la memoria.

Por último, es interesante mencionar que se están desarrollando nuevas estrategias en materia de segmentación. Algunos programadores están actualmente trabajando en la posibilidad de que las MT proporcionen un enfoque parecido al que ofrecen los sistemas de traducción que basan su proceso en la búsqueda de ejemplos. La diferencia radica en que en estos programas el traductor no es el responsable último del análisis y la formulación de la traducción, sino que lo es el ordenador (el programa en sí), al contrario que con las MT.

FUENTE: "Introducción a Memorias de Traducción", María José Chollet, UAM.

viernes, 23 de noviembre de 2012

Herramientas avanzadas de IAT

Memorias de traducción

Una de las herramientas fundamentales en el estudio de la Informática Aplicada a la Traducción es la que se conoce con el nombre de Memorias de Traducción, que ya hemos mencionado en varias ocasiones. De ahora en adelante, nos referiremos a ellas como MT y en esta entrada vamos a ver qué son exactamente y cuál es el proceso de traducción convencional que seguimos conforme a ellas.

En lo que se refiere a la definición más adecuada, nos encontramos con que el proyecto EAGLES define esta herramienta como “a multilingual text archive containing (segmented, aligned, parsed and classified) multilingual texts, allowing storage and retrieval of aligned multilingual text segments against various search conditions”. En resumen, diríamos que una MT es una base de datos en la que almacenamos textos originales junto con sus traducciones, haciendo coincidir los segmentos de los mismos para reutilizarlos en un futuro.

En cuanto a las características básicas de las MT, tenemos que destacar que:

- No es un proceso automático de traducción como en los programas de TA (Traducción Automática), ya que no nos sirve estrictamente para hacer traducciones sobre la marcha, sino que consiste en el almacenaje de las mismas para poder consultarlas en ocasiones futuras que sean similares. No obstante, es una herramienta que ayuda a la TAO (Traducción Automática Online).

- El traductor como persona, como factor humano, es el motor de trabajo. Por muy informatizado que esté el proceso, el traductor humano no dejará de ser necesario para aportar la visión del ámbito cultural a la traducción.

- Reúne las herramientas de uso habitual en los programas de traducción y añade algunos recursos extra, como el análisis del documento, la búsqueda terminológica, la gestión y la revisión. Además, también podemos encontrar opciones propias de las bases de datos, como la compactación o la desfragmentación, así como diccionarios, glosarios específicos y correctores.

Existen otros dos componentes característicos (fuzzy matching y leveraging) que tienen que ver con la alineación de segmentos dentro de una MT, pero de eso ya hablaremos en la siguiente entrada. Por el momento y para terminar este primer contacto, es interesante señalar que las funciones básicas de trabajo con una MT siguen el siguiente proceso: comparar un segmento con los textos almacenados en la base de datos, si el programa encuentra un segmento exacto o similar, presentarlo al usuario (en este caso, el traductor consulta este segmento y puede decidir si lo reutiliza, modifica o lo traduce de nuevo) y, finalmente, almacenar la nueva traducción en la BDD (Base De Datos) junto con el segmento original.

FUENTE: http://www.eagle-translations.com/

sábado, 17 de noviembre de 2012

Corpus y textos paralelos

Ejemplos e Internet

Para terminar con el apartado relativo a la alineación de textos paralelos vamos a ver algunos ejemplos representativos de lo explicado. Antes que nada, quisiera que vierais esta imagen que corresponde a un corpus paralelo en el que los segmentos están perfectamente asociados a su traducción:

Por otro lado, existe un último corpus de gran amplitud del que es muy interesante hablar porque es muy probable que hayáis hecho uso de él en innumerables ocasiones y, sin duda, seguiréis haciéndolo: se trata del Google Translate. Este sistema funciona mediante la llamada Traducción Automática Estadística, según la cual se extraen estadísticas de uso a partir de un conjunto de textos paralelos.

De esta manera, el traductor elige cuál es la traducción más adecuada para cada ocasión. Los internautas podemos colaborar con ello mediante el “Google Translator Toolkit”, que consiste en un potente y sencillo editor que ayuda a los traductores a trabajar mejor y más rápido. Permite subir y traducir documentos (podemos utilizar documentos de nuestro ordenador y documentos de la web), descargar y publicar traducciones (de la Wikipedia o del Knol), chatear y compartir traducciones online (colaborar online con otros traductores, una característica básica de nuestro oficio) y utilizar herramientas avanzadas (memorias de traducción y glosarios multilingües).

En conclusión, el “Toolkit” nos puede ayudar a mejorar el rendimiento del traductor de Google al contar con textos paralelos o textos bilingües. Ahora que sabemos lo que son y cómo funcionan, así como su utilidad para traductores como nosotros, es interesante que colaboremos en estos proyectos.

FUENTE: https://moodle.uam.es/file.php/9166/Alineacion_de_textos_paralelos.pdf

FUENTE: http://translate.google.com/toolkit/

viernes, 16 de noviembre de 2012

Umbral de representatividad de un corpus

Corpas Pastor y Seghiri Domínguez

Después de leer la entrada anterior, es posible que nos surja una duda: si nos decidimos a elaborar nuestro propio corpus de textos paralelos, ¿cuántos textos tenemos que incluir en él para poder llamarlo “corpus” como tal? Las doctoras Gloria Corpas Pastor y Miriam Seghiri Domínguez, de la Universidad de Málaga, han elaborado un artículo en el que se da una solución objetiva y cuantificable para determinar a posteriori el tamaño mínimo que debe alcanzar un corpus para ser considerado representativo, siempre hablando en términos estadísticos.

Lo primero que tenemos que saber es que existe un programa informático llamado ReCor, por medio del cual estas dos profesoras están intentando dar una respuesta a esa pregunta que nos surge irremediablemente sobre la amplitud mínima necesaria en un corpus. Hasta ahora, la búsqueda de una respuesta válida se había estado fundamentando en las opiniones personales de los expertos en lingüística pero nunca se había llegado a un consenso, puesto que cada uno tiene una opinión y considera que es la mejor opción frente a las demás.

Este programa informático del que hablamos se caracteriza especialmente por su interfaz de usuario que, pese a la aparente complejidad de un programa de este tipo, es realmente sencilla. Funciona mediante el algoritmo N-Cor, que tiene en cuenta el análisis de la densidad léxica en relación a los aumentos incrementales del corpus documento a documento. Su ecuación base es la siguiente:

C_n= d₁+ d₂+d₃+...+d_n

Gracias a esta sencilla ecuación, podemos analizar gradualmente todos los archivos que componen el corpus y extraer de ellos información sobre la frecuencia de las palabras tipo, a las que llamamos types, y las ocurrencias o instancias, llamadas tokens. Entre los criterios de selección de archivos, podemos elegir dos procedimientos: el orden alfabético (las types y las tokens se analizan en el primer documento y el resultado se va sumando al análisis de los demás documentos) y el orden aleatorio (el mismo proceso de análisis, pero considerando un rango de longitudes de secuencia).

Partiendo de la base de que el resultado de la división entre las types y las tokens, es decir, entre las palabras reales y las totales de un texto, no aumenta proporcionalmente a partir de un número de textos determinado, esta herramienta informática permite ilustrar gráficamente el punto a partir del cual un corpus que ha sido compilado según criterios cualitativos comienza a ser representativo en términos cuantitativos. Actualmente, los creadores del programa están trabajando en una versión actualizada del mismo con más posibilidades.

FUENTE: http://www.sepln.org/revistaSEPLN/revista/39/20.pdf

jueves, 15 de noviembre de 2012

Gestión de corpus multilingües

Alineación de textos paralelos

Llegados a este punto, tenemos que hablar de un apartado fundamental de la Informática Aplicada a la Traducción sobre la utilización de textos paralelos, corpus y memorias de traducción. De hecho, considero que es el verdadero fundamento de esta asignatura de la que venimos hablando desde el principio.

Para elaborar una memoria de traducción podemos recoger los textos mientras traducimos o después de acabar nuestras traducciones. En cualquier caso, la cuestión es incorporar textos originales con sus respectivas traducciones, ya que esto es en lo que consiste realmente el proceso de alineación de textos: comparación entre los textos originales y sus traducciones, haciendo coincidir todos los segmentos correspondientes y uniéndolos como unidades de una memoria de traducción. Por esta razón, un corpus paralelo se constituye como la base imprescindible para la elaboración de memorias de traducción.

Para llevar a cabo la alineación de textos paralelos podemos recurrir directamente a hojas de cálculo de Excel, pero también tenemos a nuestra disposición algunas herramientas incluidas en los paquetes de memorias de traducción, entre las cuales destacan especialmente WinAlign (Trados) y el alineador propio del programa Déjà Vu Atril. Además, existen los llamados sistemas de código abierto, como Microsoft Bilingual Sentence Aligner o Bitext2tmx. Al utilizar estos sistemas de alineación de textos podemos encontrarnos con una serie de errores frecuentes como la incoherencia de formatos entre ambos textos o la falta de correspondencias, es decir, que un segmento del texto original se encuentre dividido en dos segmentos diferentes en la traducción, etc.

Por eso, siempre debemos revisar la alineación propuesta por el programa porque no deja de ser una máquina (tecnología informática) y puede cometer errores de puntuación y otros. Siempre debemos especificar el formato de entrada de los textos, así como las lenguas de origen y de llegada y, por supuesto, el conjunto de caracteres que queremos utilizar (por lo general, utilizaremos el sistema ISO). Y, finalmente, siempre debemos tener en cuenta que no todos los textos son susceptibles de ser utilizados en un programa de alineación de textos o de alimentar una memoria de traducción.

Para terminar, es interesante mencionar que los textos paralelos alineados no sólo se utilizan con estos fines, sino que también se pueden usar como sustitutos de diccionarios terminológicos (podemos comprobar con qué aparece asociado siempre un término y tener la traducción al alcance de la mano) o como herramientas para comprobar el índice de frecuencia de aparición de un término en un texto (resulta útil cuando queremos hacer análisis sobre textos y corpus).

FUENTE: https://moodle.uam.es/file.php/9166/Alineacion_de_textos_paralelos.pdf