viernes, 16 de noviembre de 2012

Umbral de representatividad de un corpus


Corpas Pastor y Seghiri Domínguez

Después de leer la entrada anterior, es posible que nos surja una duda: si nos decidimos a elaborar nuestro propio corpus de textos paralelos, ¿cuántos textos tenemos que incluir en él para poder llamarlo “corpus” como tal? Las doctoras Gloria Corpas Pastor y Miriam Seghiri Domínguez, de la Universidad de Málaga, han elaborado un artículo en el que se da una solución objetiva y cuantificable para determinar a posteriori el tamaño mínimo que debe alcanzar un corpus para ser considerado representativo, siempre hablando en términos estadísticos.

Lo primero que tenemos que saber es que existe un programa informático llamado ReCor, por medio del cual estas dos profesoras están intentando dar una respuesta a esa pregunta que nos surge irremediablemente sobre la amplitud mínima necesaria en un corpus. Hasta ahora, la búsqueda de una respuesta válida se había estado fundamentando en las opiniones personales de los expertos en lingüística pero nunca se había llegado a un consenso, puesto que cada uno tiene una opinión y considera que es la mejor opción frente a las demás.

Este programa informático del que hablamos se caracteriza especialmente por su interfaz de usuario que, pese a la aparente complejidad de un programa de este tipo, es realmente sencilla. Funciona mediante el algoritmo N-Cor, que tiene en cuenta el análisis de la densidad léxica en relación a los aumentos incrementales del corpus documento a documento. Su ecuación base es la siguiente: 

Cn= d1+ d2+d3+...+dn

Gracias a esta sencilla ecuación, podemos analizar gradualmente todos los archivos que componen el corpus y extraer de ellos información sobre la frecuencia de las palabras tipo, a las que llamamos types, y las ocurrencias o instancias, llamadas tokens. Entre los criterios de selección de archivos, podemos elegir dos procedimientos: el orden alfabético (las types y las tokens se analizan en el primer documento y el resultado se va sumando al análisis de los demás documentos) y el orden aleatorio (el mismo proceso de análisis, pero considerando un rango de longitudes de secuencia).

Partiendo de la base de que el resultado de la división entre las types y las tokens, es decir, entre las palabras reales y las totales de un texto, no aumenta proporcionalmente a partir de un número de textos determinado, esta herramienta informática permite ilustrar gráficamente el punto a partir del cual un corpus que ha sido compilado según criterios cualitativos comienza a ser representativo en términos cuantitativos. Actualmente, los creadores del programa están trabajando en una versión actualizada del mismo con más posibilidades. 

FUENTE: http://www.sepln.org/revistaSEPLN/revista/39/20.pdf 

No hay comentarios:

Publicar un comentario