Corpas Pastor y Seghiri Domínguez
Después de leer la entrada
anterior, es posible que nos surja una duda: si nos decidimos a elaborar nuestro
propio corpus de textos paralelos, ¿cuántos textos tenemos que incluir en él
para poder llamarlo “corpus” como tal? Las doctoras Gloria Corpas Pastor y
Miriam Seghiri Domínguez, de la Universidad de Málaga, han elaborado un
artículo en el que se da una solución objetiva y cuantificable para determinar a posteriori el tamaño mínimo que debe alcanzar
un corpus para ser considerado representativo, siempre hablando en
términos estadísticos.
Lo primero que tenemos que saber es
que existe un programa informático llamado ReCor, por medio del cual estas dos
profesoras están intentando dar una respuesta a esa pregunta que nos surge
irremediablemente sobre la amplitud mínima necesaria en un corpus. Hasta ahora,
la búsqueda de una respuesta válida se había estado fundamentando en las
opiniones personales de los expertos en lingüística pero nunca se había llegado a un consenso, puesto que cada uno tiene una
opinión y considera que es la mejor opción frente a las demás.
Este programa informático del que
hablamos se caracteriza especialmente por su interfaz de usuario que, pese a la
aparente complejidad de un programa de este tipo, es realmente sencilla. Funciona
mediante el algoritmo N-Cor, que tiene en cuenta el análisis de la densidad
léxica en relación a los aumentos incrementales del corpus documento a
documento. Su ecuación base es la siguiente:
Cn= d1+
d2+d3+...+dn
Gracias a esta sencilla ecuación, podemos analizar
gradualmente todos los archivos que componen el corpus y extraer de ellos
información sobre la frecuencia de las palabras tipo, a las que llamamos types, y las ocurrencias o instancias,
llamadas tokens. Entre los criterios
de selección de archivos, podemos elegir dos procedimientos: el orden
alfabético (las types y las tokens se analizan en el primer
documento y el resultado se va sumando al análisis de los demás documentos) y
el orden aleatorio (el mismo proceso de análisis, pero considerando un rango de
longitudes de secuencia).
Partiendo de la base de que el resultado de la división entre
las types y las tokens, es decir, entre las palabras reales y las totales de un
texto, no aumenta proporcionalmente a partir de un número de textos determinado,
esta herramienta informática permite ilustrar gráficamente el punto a partir del
cual un corpus que ha sido compilado según criterios cualitativos comienza a
ser representativo en términos cuantitativos. Actualmente, los creadores del
programa están trabajando en una versión actualizada del mismo con más
posibilidades.
FUENTE: http://www.sepln.org/revistaSEPLN/revista/39/20.pdf
No hay comentarios:
Publicar un comentario