Segmentación y coincidencias
A modo de continuación de la
anterior entrada sobre Memorias de Traducción vamos a ver ahora algunas
nociones básicas sobre la segmentación de textos que se lleva a cabo en este
tipo de programas. Por lo general, los segmentos se definen siguiendo las
reglas de puntuación y de ahí que la oración sea la unidad utilizada como
segmento por defecto. Obviamente, nos surge un problema relacionado con siglas, abreviaturas, etc. ya que, al haber punto,
el programa interpreta que se trata de final de oración y, por tanto,
también de segmento.
Sin embargo, podemos modificar los
criterios de segmentación y considerar párrafos completos como segmentos. Personalmente,
creo que esto no es muy práctico porque los párrafos incluyen demasiada
información y es casi imposible encontrar párrafos iguales en distintas
traducciones, pero lo importante aquí es que tenemos dicha posibilidad. Ahora que ya sabemos lo que son los segmentos de las MT, pasamos
a precisar cuáles son los distintos tipos de coincidencias entre ellos:
exactas, plenas, parciales, terminológicas y por subsegmentos.
Las coincidencias exactas
son aquellas en las que las dos cadenas de caracteres son iguales en lo relativo
al texto, la puntuación y el formato, mientras que las coincidencias plenas
son aquellas en las que el nuevo segmento sólo se diferencia por algunos
elementos ciertamente variables como cifras, fechas, divisas, medidas, etc.
Además, existe el “fuzzy matching”,
que consiste en coincidencias parciales en las que el traductor como factor
humano configura el “umbral de sensibilidad” de la traducción, aunque el programa
siempre presenta los segmentos más
próximos al original en primer lugar.
Por otro lado, existen las coincidencias
terminológicas, que se basan en la consulta automática de diccionarios
teniendo en cuenta que, aunque la MT no encuentre un término similar en la base
de datos, siempre ofrece equivalencias. Finalmente, las coincidencias por
subsegmentos tienen que ver con que los elementos de la comparación son bloques
de segmentos, de modo que el programa puede generar un segmento a partir de
trozos que encuentra en diferentes segmentos almacenados en la memoria.
Por último, es interesante
mencionar que se están desarrollando nuevas estrategias en materia de
segmentación. Algunos programadores están actualmente trabajando en la
posibilidad de que las MT proporcionen un enfoque parecido al que ofrecen los
sistemas de traducción que basan su proceso en la búsqueda de
ejemplos. La diferencia radica en que en estos programas el traductor no es el
responsable último del análisis y la formulación de la traducción, sino que lo es
el ordenador (el programa en sí), al contrario que con las MT.
FUENTE: "Introducción a Memorias de Traducción", María José Chollet, UAM.
FUENTE: "Introducción a Memorias de Traducción", María José Chollet, UAM.
No hay comentarios:
Publicar un comentario