domingo, 2 de diciembre de 2012

Componentes generales de las MT


Segmentación y coincidencias

A modo de continuación de la anterior entrada sobre Memorias de Traducción vamos a ver ahora algunas nociones básicas sobre la segmentación de textos que se lleva a cabo en este tipo de programas. Por lo general, los segmentos se definen siguiendo las reglas de puntuación y de ahí que la oración sea la unidad utilizada como segmento por defecto. Obviamente, nos surge un problema relacionado con siglas, abreviaturas, etc. ya que, al haber punto, el programa interpreta que se trata de final de oración y, por tanto, también de segmento.

Sin embargo, podemos modificar los criterios de segmentación y considerar párrafos completos como segmentos. Personalmente, creo que esto no es muy práctico porque los párrafos incluyen demasiada información y es casi imposible encontrar párrafos iguales en distintas traducciones, pero lo importante aquí es que tenemos dicha posibilidad. Ahora que ya sabemos lo que son los segmentos de las MT, pasamos a precisar cuáles son los distintos tipos de coincidencias entre ellos: exactas, plenas, parciales, terminológicas y por subsegmentos.

Las coincidencias exactas son aquellas en las que las dos cadenas de caracteres son iguales en lo relativo al texto, la puntuación y el formato, mientras que las coincidencias plenas son aquellas en las que el nuevo segmento sólo se diferencia por algunos elementos ciertamente variables como cifras, fechas, divisas, medidas, etc. Además, existe el “fuzzy matching”, que consiste en coincidencias parciales en las que el traductor como factor humano configura el “umbral de sensibilidad” de la traducción, aunque el programa siempre presenta los segmentos más próximos al original en primer lugar.

Por otro lado, existen las coincidencias terminológicas, que se basan en la consulta automática de diccionarios teniendo en cuenta que, aunque la MT no encuentre un término similar en la base de datos, siempre ofrece equivalencias. Finalmente, las coincidencias por subsegmentos tienen que ver con que los elementos de la comparación son bloques de segmentos, de modo que el programa puede generar un segmento a partir de trozos que encuentra en diferentes segmentos almacenados en la memoria.

Por último, es interesante mencionar que se están desarrollando nuevas estrategias en materia de segmentación. Algunos programadores están actualmente trabajando en la posibilidad de que las MT proporcionen un enfoque parecido al que ofrecen los sistemas de traducción que basan su proceso en la búsqueda de ejemplos. La diferencia radica en que en estos programas el traductor no es el responsable último del análisis y la formulación de la traducción, sino que lo es el ordenador (el programa en sí), al contrario que con las MT. 

FUENTE: "Introducción a Memorias de Traducción", María José Chollet, UAM. 

No hay comentarios:

Publicar un comentario