PDF de programación - Descubrimiento de Información en Textos Tarea del Tema 4: Comparativa de etiquetadores estadísticos

Imágen de pdf Descubrimiento de Información en Textos Tarea del Tema 4: Comparativa de etiquetadores estadísticos

Descubrimiento de Información en Textos Tarea del Tema 4: Comparativa de etiquetadores estadísticosgráfica de visualizaciones

Publicado el 5 de Febrero del 2017
552 visualizaciones desde el 5 de Febrero del 2017
379,7 KB
13 paginas
Creado hace 9a (10/03/2011)
Descubrimiento de 

Información en Textos  

Tarea del Tema 4: 
Comparativa de 

 

 
 
 
 
 
 
 
 
 
 
 
 

 

etiquetadores estadísticos 

Jose Alberto Benítez Andrades
71454586A
Descubrimiento de Información en Textos
Máster en Lenguajes y Sistemas Informáticos ‐ Tecnologías del Lenguaje en la Web
UNED
09/03/2011

Descripción de Información en Textos ‐ Tarea 4                              José Alberto Benítez Andrades                                    

9 de marzo de 2011 

 
  

0.Enunciado 
 

Tarea del tema 4: Comparativa de etiquetadores estadísticos 

En la siguiente página web: 

http://www‐nlp.stanford.edu/links/statnlp.html 

En 
la  sección  ”Part  of  Speech  Taggers”  puedes  encontrar  numerosos  etiquetadores 
estadísticos. Muchos de ellos se basan en modelos distintos (HMMs, Support Vector Machine, 
etc.), utilizan distintos corpus de entrenamiento, sirven para distintos idiomas, etc. 

En  esta  tarea  debes  comparar  el  comportamiento  de  al  menos  dos  de  ellos.  Estúdialos, 
descríbelos (busca en la distribución y en la web detalles del modelo), y utilízalos para realizar 
el  etiquetado  de  un  pequeño  texto,  el  mismo  para  ambos.  Para  ello  asegúrate  que  los 
etiquetados elegidos sirven para el mismo idioma. Debes elegir un texto en el que aparezcan 
palabras con más de una etiqueta léxica posible. 

Después  compara  los  resultados:  etiquetas  utilizas  por  cada  etiquetador  y  precisión  del 
etiquetado. Para analizar la corrección puedes utilizar un texto de un corpus del que conozcas 
el etiquetado correcto. En otro caso tendrás que realizar el etiquetado correcto manualmente. 

Documentación a entregar: 

 Descripción de los etiquetadores seleccionados. 
 Texto de prueba utilizado. 
 Resultado del etiquetado con cada etiquetador seleccionado. 
 Observaciones sobre la comparativa de los resultados. 

 

1.Descripción de los etiquetadores seleccionados 
Después  de  intentar  completar  la  instalación  y  puesta  en  marcha  de  varios  de  los 
etiquetadores  propuestos  en  la  web  dada  en  el  enunciado,  conseguí  hacer  funcionar 
correctamente tres. Los etiquetadores estadísticos seleccionados han sido los tres siguientes: 

I.

II.

III.

TreeTagger 
http://www.ims.uni‐stuttgart.de/projekte/tc/ 
QtTag 
http://phrasys.net/uob/om/software 
SVMTool 
http://www.lsi.upc.edu/ñlp/SVMTool/lrec2004‐gm.pdf 

 
A continuación voy a describir los etiquetadores enumerados anteriormente. 

  
 

Página 2

Descripción de Información en Textos ‐ Tarea 4                              José Alberto Benítez Andrades                                    

9 de marzo de 2011 

 
I. TreeTagger 
 

En primer lugar, cabe destacar que fue creado por el personal de la Universidad de Stuttgart, 
por    el  Instituto  de  la  Lingüística  Romance  y  el  Instituto  de  Ciencias  de  la  Computación 
departamento de inteligencia artifical). 

Fue completamente financiado al 100% por el Ministerio de Ciencia e Investigación del Estado 
federado de Baden‐Württemberg (MWF, Stuttgart), en 1993/1994 y 1995/1996. 

En 1993/1994 el proyecto recogió todo el material de texto necesario para el alemán, francés e 
italiano, y se desarrolló una representación de los textos y las marcas, junto con un lenguaje de 
consulta y un sistema de acceso para la exploración de corpus lingüísticos de los textos. Los 
textos  y  análisis  de  resultados  se  mantienen  separados  unos  de  otros,  por  razones  de 
flexibilidad y extensibilidad del sistema. Esto es posible gracias a un enfoque particular para el 
almacenamiento  y  la  representación.  Algunos  de  los  componentes  de  la  herramienta 
actualmente se encuentran en fase de desarrollo, un idioma específico y general, van desde el 
análisis  morfosintáctico  de  análisis  parciales,  y  de  información  mutua,  la  puntuación  T‐,  la 
extracción de coubicación y la agrupación de etiquetado basados en HMM y etiquetado de n‐
grama.  Actualmente  se  están  realizando  investigaciones  sobre modelos  estadísticos  para  los 
sintagmas nominales, las colocaciones verbo‐objeto, etc. 

Instalación 

El primer paso para la instalación del mismo es seleccionar el paquete de instalación 
correspondiente al sistema operativo que nosotros tengamos:  

 PC‐Linux 
 Sparc‐Solaris 

 Mac OS‐X (PowerPC) 
 Mac OS‐X (Intel‐CPU) 

En el caso que estudio en este trabajo, yo lo he instalado en un servidor local casero con una 
distribución de Linux, concretamente Ubuntu 9.10 Karmic Koala Server. 

En mi caso particular, para instalar este etiquetador, realicé los siguientes pasos, después de  

1.Descargar los scripts etiquetados en el mismo directorio. 

3.Descargar el script de instalación install‐tagger.sh . 

4.Descargar los ficheros de parámetros para el sistema en el que se haya instalado la 
aplicación (PC, Sparc‐Solaris, Mac‐Power‐PC, Mac‐Intel). 

Para finalizar, abrimos un terminal y ejecutamos el fichero de instalación: 

sh install‐tagger.sh 

 

  
 

Página 3

Descripción de Información en Textos ‐ Tarea 4                              José Alberto Benítez Andrades                                    

 
Finalmente para probar la aplicación, podemos escribir lo siguiente en la línea de comandos: 

9 de marzo de 2011 

echo 'Hello world!' | cmd/tree‐tagger‐english  

Y veremos una salida como la que muestro en la imagen  

Foto 1: Ventana de putty en windows 7 conectado a servidor local. 

 

 

 

 

II. QTag 
 

QTag es un etiquetador multiplataforma libre. Está implementado en lenguaje Java y ha sido 
probado en Mac OS X, Linux y Windows. Trabaja, en principio, con cualquier idioma del que de 
dispone de recursos, pero para el modo  "shrink‐wrap" sólo trabaja con ejemplos en Inglés. 

La creación de ficheros de recursos de distintos idiomas, es algo compleja, pero el autor del 
programa explica que no es muy común realizar ficheros de este tipo, con los lenguajes que 
trae  por  defecto  suele  ser  suficiente.  Para  añadir  recursos  nuevos,  corpus  nuevos,  hay  que 
contactar con él mediante un correo electrónico. 

Su creador es Oliver Mason, el cual se encuentra en la Universidad de Birmingham realizando 
distintos estudios sobre este tipo de temas. 

 

  
 

Página 4

Descripción de Información en Textos ‐ Tarea 4                              José Alberto Benítez Andrades                                    

9 de marzo de 2011 

Instalación y puesta en marcha 

 

Este programa tiene una instalación bastante simple, sólo debemos descargar el siguiente 
fichero: 

‐ Fichero QTag (http://phrasys.net/uob/downloads/qtag.jar) 

Y una vez descargado, si estamos bajo sistemas unix, debemos ejecutar en una terminal: 

java ‐jar qtag.jar 

Y si estamos en un sistema Windows, teniendo bien instalada la máquina virtual de JAVA con 
sus correspondientes alias introducidos en el sistema, nos basta con hacer doble click sobre el 
programa. 

 

Foto 2: QTag ejecutado bajo Windows 7 Ultimate 64bits 

En este caso, instalé la versión para Windows, en mi Windows 7 Ultimate 64 bits. 

Su  funcionamiento  es  sencillo,  se  elige  el  fichero  que  queremos  analizar  pulsando  sobre  el 
botón "Browse" que se encuentra justo después del campo File to Tag. 

Seleccionamos después el fichero de salida, y elegimos el tipo de salida que queremos obtener 
(XML, con tabulaciones, completo, texto plano). 

 
 
 
 
 

  
 

Página 5

Descripción de Información en Textos ‐ Tarea 4                              José Alberto Benítez Andrades                                    

9 de marzo de 2011 

 
 

III. SVMTool 
 

Esta  herramienta  está  compuesta  por  tres  componentes  principales,  el  aprendedor 
(SVMTlearner), el etiquetador (SVMTagger) y el evaluador (SVMTeval). 

Antes de realizar el etiquetado, los modelos de SVM aprenden de distintos corpus usando el 
componente  de  aprendizaje.  Se  les  enseñan  diferentes  estrategias  a  los  distintos  modelos. 
Entonces, en el tiempo de etiquetado, usando el SVMTagger, se selecciona la mejor estrategia 
para la propuesta de etiquetado que vamos a probar. Finalmente, dado un corpus anotado de 
forma correcta, realizado con el componente SVMTool, es evaluado por el SVMTEval. 

SVMTlearn 

Se entrenan a unos clasificadores SVM mediante un conjunto de ejemplos dado. El SVMTlearn 
tiene  un  fichero  de  configuración,  en  el  que  se  pueden  cambiar  distintos  parámetros  que 
enumeraré a continuación: 

 Sliding  window:  el  tamaño  de  la  ventana  deslizante  se  puede  ajustar.  Se  puede 

cambiar el tamaño de esta ventana, que por defecto es 5. 

 Feature  set:  la  ventana  deslizante  recogerá  tres  tipos  de  características  distintas: 

características de palabras, de POS (Part of Speech) y sufijos y ortografía. 

 Feature filtering:  
 SVM model compression: módulo que comprime los modelos de SVM para mejorar su 

rapidez. 

 C  parameter  tunning:  permite  personalizar  una  serie  de  parámetros  a  la  hora  de 

realizar las pruebas. 

 Dictionary repairing: permite reparar el diccionario. 
 Ambigous  classes:  en  ocasiones  se  encuentran  palabras  con  ambigüedades  que 

mediante este parámetro se pueden subsanar. 

 Open classes: estas clases son para las palabras que son desconocidas. 
 Backup lexicon: contiene palabras que no están normalmente en un corpus. 

SVMTagger 

Dado  un  corpus  y  una  ruta  para  un  modelo  de  aprendizaje  SVM  aprendido,  se  crea  un 
etiquetado  POS  de  una  secuencia  de  palabras.  El  etiquetado  está  basado  en  una  ventana 
deslizante que da una visión del contexto que es considerado.Este componente también tiene 
una serie de opciones como por ejemplo: 

 Tagging  scheme:  se  pueden  utilizar  dos  esquemas  de  etiquetado  distintos  (Greedy  y 

sentence‐level) 

 Tagging direction: la dirección del etiquetado, de izquierda a derecha, o de derecha a 

izquierda, o una combinación de
  • Links de descarga
http://lwp-l.com/pdf2283

Comentarios de: Descubrimiento de Información en Textos Tarea del Tema 4: Comparativa de etiquetadores estadísticos (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios
Es necesario revisar y aceptar las políticas de privacidad