PDF de programación - Programación en R del método de las palabras asociadas

Imágen de pdf Programación en R del método de las palabras asociadas

Programación en R del método de las palabras asociadasgráfica de visualizaciones

Actualizado el 21 de Marzo del 2018 (Publicado el 7 de Diciembre del 2017)
1.011 visualizaciones desde el 7 de Diciembre del 2017
270,6 KB
16 paginas
Creado hace 16a (20/12/2007)
Universidad Nacional de Colombia, Sede Bogotá
Facultad de Ciencias, Carrera de Estadística
Trabajos de grado - 50 años
Bogotá, Diciembre de 2007

Programación en R del método de las palabras asociadas

Co-word Method in R

Daniel Hernando Rodrígueza

Campo Elías Pardob

Autor

Director

Departamento de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia

Resumen

Se describe el método de las palabras asociadas (MPA) presentado en Courtial (1990). Se presenta
el paquete mpa desarrollado en el software R que ejecuta el MPA y con la cual se analizan los temas
presentes en los artículos publicados en la Revista Colombiana de Estadística. El análisis de estas
temáticas se complementa con el análisis de correspondencias simples de las tablas de autores por
año y palabras por año.

Palabras clave: Software estadístico, cienciometría, análisis estadístico de textos, clasificación jerárquica.

Abstract

Co-word method presented by Courtial (1990) is described. Also the package mpa developed in
R software is presented, an analysis of topics in Revista Colombiana de Estadística publications
is made with this package. The analysis of these subject matters complements itself with simple
correspondences analysis of the authors-year and keywords-year tables.

Key words: Statistical software, scientometrics, statistical textual analysis, hierarchical clustering.

1. Introducción

En este documento se presenta el método de las palabras asociadas (MPA) el cual tiene como objetivo
principal encontrar las diversas temáticas presentes dentro de un conjunto de documentos, a partir de la
clasificación de las palabras clave que se encuentran simultáneamente en éstos. Además permite encontrar
la estructura de las relaciones entre los referentes de esas palabras (Charum 1998).

Estas temáticas se hallan con la construcción de grupos de las palabras clave, los cuales se caracterizan
en un mapa estratégico para su mejor análisis. Un mapa estratégico es un diagrama de dos ejes en donde
se ubican los grupos formados, el eje vertical representa la densidad de los grupos (intensidad de las
asociaciones internas) y el eje horizontal representa la centralidad de los mismos (relación de un grupo
con los otros), estos conceptos se ampliarán más adelante. El análisis de los grupos se profundiza con el
diagrama de la red de relaciones entre las palabras de cada grupo, que muestra a manera de grafo, el
nivel de asociación entre las palabras clave que pertenecen a cada clase.

De esta manera, el MPA resulta ser un método práctico e indispensable al momento de analizar áreas

del conocimiento a partir de sus documentos escritos.

aEstudiante de estadística. E-mail: [email protected]
bProfesor asociado. E-mail: [email protected]

1

2

Daniel Hernando Rodríguez

Uno de los programas de cómputo más utilizados para realizar el MPA es el Leximappe (Whittaker
1988), que fue desarrollado por la Ecole des Mines en París, pero este software a pesar de ser una gran
herramienta es muy antiguo y otros software más modernos que aplican el MPA no son libres o de
fácil acceso. Entonces se desarrolla un código en el software R (R Development Core Team 2007) para
ejecutar el método de una forma eficaz y que sirva de herramienta básica para futuros análisis del mismo
tipo. Así mismo, se utiliza este código para revelar y analizar las áreas de investigación presentes en las
publicaciones de la Revista Colombiana de Estadística.

2. Descripción del método

El MPA es un método de análisis cienciométrico que consiste en la clasificación de palabras clave (o
descriptores de documentos escritos) en un conjunto de documentos. Los grupos formados después de
dicha clasificación son temáticas que se interpretan como áreas del conocimiento presentes en el grupo de
documentos.

El proceso para desarrollar el método es el siguiente, (Charum 1995):

Se parte de una tabla X de n documentos por m palabras clave (tabla léxica). Cada entrada de
esta tabla es 1 (uno) si el documento asume una palabra clave o 0 (cero) si no.

Se construye la matriz de co-ocurrencias de las palabras C=X0X. El número de co-ocurrencias entre
dos palabras, es el número de veces que aparecen las dos palabras juntas en todos los documentos.

Para cada par de palabras se calcula el índice de asociación Eij dado por:

Eij =

c2
ij
cicj

(1)

donde c2
ij es el cuadrado de la co-ocurrencia entre la palabra i y la palabra j (fila i columna j de
X) y ci y cj son las frecuencias absolutas de cada una de las palabras en X. Esto se puede expresar
de forma matricial si se construye la matriz C∗ = {c2
ij}, entonces la matriz simétrica de índices de
asociación E es:

E = Diag−1{ci}C∗Diag−1{ci}

(2)

Cada coeficiente de asociación es el producto entre la probabilidad que aparezca la palabra j cuando
se presenta la palabra i y la probabilidad de tener la palabra i cuando se presenta la palabra j, por
lo cual varía entre cero y uno. Es un índice de similitud entre las palabras clave el cual se puede
utilizar para la aplicación de métodos de clasificación, (Charum 1998).

Este índice de similitud muestra que dos palabras clave se encuentran cercanas en la medida en
que aparezcan simultáneamente en un gran número de documentos, así, en el MPA se realiza una
clasificación jerárquica mediante enlace simple (Lebart et al. 1995), dos palabras se agrupan si son
las más cercanas en términos de su asociación.

La matriz E, puede interpretarse como un grafo, donde los nodos son las palabras clave y sus
vínculos son las asociaciones entre ellas, el método corta este grafo en subconjuntos de palabras
relacionadas entre sí.

Cada grupo se forma teniendo en cuenta su tamaño, es decir, se predetermina un número umbral
de palabras que pertenezcan al grupo.

Al final del procedimiento se encontrarán diferentes grupos o clusters conformados por las palabras más
asociadas entre sí, que reflejarán las temáticas presentes en el corpus.

Según Courtial (1990), éste método presenta una ventaja sobre la clasificación común, y es que no
se obliga a reagrupar a las palabras clave en grupos cada vez más homogéneos, por el contrario, debido

Trabajo de grado, Carrera de Estadística (2007)

Programación en R del método de las palabras asociadas

3

al enlace simple, en algunos casos se encuentran grupos muy heterogéneos, pero sin embargo, conservan
una función esencial en la lógica de las redes: la de enlazar segmentos de palabras de una forma natural.

En este análisis es más importante analizar grupos que contienen las palabras más cercanas entre sí,
debido a que éstas son utilizadas simultáneamente con más frecuencia por autores que hablan de temas
relacionados. Si se llegara a intentar una clasificación diferente al enlace simple, se podría caer en eliminar
la unión de temas relacionados dentro del campo de trabajo de los autores.

2.1. Concepto de densidad, centralidad y diagrama estratégico

La caracterización de cada uno de los grupos de palabras clave formados con el método, se hace a
partir de las relaciones internas de cada grupo y de las relaciones entre grupos, a continuación se definen
los conceptos de densidad y centralidad, (Courtial 1990).

2.1.1. Densidad de un grupo

La densidad es una medida de la fuerza de las asociaciones internas de un grupo o cluster, se define
como el promedio de los coeficientes de asociación entre las palabras clave dentro del grupo. Si S es un
grupo creado, entonces su densidad DS es:

DS =

1
m0 X

i∈S

Eij

X

j∈S
j>i

(3)

donde m0 es el número de coeficientes de asociación internos no nulos. De esta forma, si las palabras
dentro de un grupo aparecen con alta frecuencia de forma simultánea en diferentes documentos, significa
que el grupo está representando a una temática elaborada y tendría una densidad alta. Por otro lado,
si las palabras dentro del grupo están presentes de forma simultánea sólo en algunos documentos, pero
además se encuentran en otros documentos asociadas con otras palabras, se dice que el grupo representa
a una temática poco elaborada y por lo tanto, su densidad es baja.

La densidad es importante en el momento de caracterizar un grupo de palabras, porque refleja si la

temática que evidencia el mismo, está desarrollada o no.

2.1.2. Centralidad de un grupo

La centralidad mide el nivel de relación de un grupo con los demás. Se calcula como el valor medio de
los coeficientes de asociación entre las palabras clave de un grupo con las palabras clave que pertenecen
a los demás grupos existentes. Es decir, como su nombre lo indica, la centralidad muestra la importancia
de la temática en general. Si S es un grupo creado, entonces su centralidad CS es:

CS =

1
m00 X

i∈S

X

j6∈S

Eij

(4)

donde m00 es el número de coeficientes de asociación externos no nulos. Si un grupo tiene un índice de
centralidad alto, significa que la temática representada por éste tiene un alto impacto sobre las demás
temáticas, por otro lado, si sucede lo contrario, la temática es poco central.

2.1.3. Diagrama estratégico

Como un cluster se caracteriza con las medidas de densidad y centralidad, es posible plasmar el
conjunto de clusters en un plano bidimensional donde el eje vertical representa la densidad y el eje
horizontal representa la centralidad (Charum 1998).

Trabajo de grado, Carrera de Estadística (2007)

4

Daniel Hernando Rodríguez

Es importante mencionar que en el diagrama estratégico, cada grupo queda reducido a un punto en
el plano, el cual se puede nombrar con la palabra cuya suma de asociaciones internas sea más alta o con
un nombre que exprese la temática presente en el grupo.

En este punto el análisis de los grupos se facilita dependiendo de su ubicación en el diagrama. Por
ejemplo, si un grupo se encuentra en la parte superior derecha del diagrama (cuadrante 1), se dice que
la temática que representa esta desarrollada y es de alta importancia para las demás (ver figura 1)
(Cardona 2001).

Densidad

Cuadrante 2

Cuadrante 1

Temáticas

especializadas

Temáticas centra
  • Links de descarga
http://lwp-l.com/pdf7786

Comentarios de: Programación en R del método de las palabras asociadas (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad