PDF de programación - DAWeb: Un descargados y analizador mofológico de páginas web

Imágen de pdf DAWeb: Un descargados y analizador mofológico de páginas web

DAWeb: Un descargados y analizador mofológico de páginas webgráfica de visualizaciones

Actualizado el 28 de Julio del 2017 (Publicado el 14 de Enero del 2017)
907 visualizaciones desde el 14 de Enero del 2017
370,6 KB
13 paginas
Creado hace 20a (10/09/2003)
Procesamiento del Lenguaje Natural, núm. 30 (2003), pp. 75-87


recibido 1-03-2003; aceptado 20-05-2003

DAWeb: Un descargador y analizador morfológico de páginas

web

Octavio Santana Suárez

Zenón J. Hernández Figueroa

Universidad de Las Palmas de Gran Canaria

Edificio de Informática y Matemáticas

Universidad de Las Palmas de Gran Canaria

Edificio de Informática y Matemáticas

Campus Universitario de Tafira

35017 Las Palmas de Gran Canaria

[email protected]



Campus Universitario de Tafira

35017 Las Palmas de Gran Canaria

[email protected]

Gustavo Rodríguez Rodríguez

Universidad de Las Palmas de Gran Canaria

Edificio de Informática y Matemáticas

Campus Universitario de Tafira

35017 Las Palmas de Gran Canaria

[email protected]



Resumen: DAWeb es una aplicación informática desarrollada como parte de un proyecto
consagrado a la realización de herramientas capaces de facilitar el aprovechamiento para la
realización de estudios lingüísticos del enorme caudal de información que ofrece Internet. Es
una herramienta orientada al análisis morfosintáctico de grandes volumenes de información —
dominios completos— a los que se accede por una o varias URL de partida. Está dotada de una
sencilla interfaz que permite establecer las acciones pertinentes sobre la información accedida.
Como resultado de los análisis realizados, se genera un conjunto estructurado de datos que
pueden estudiarse con facilidad.
Palabras clave: morfología, análisis de textos, Internet, lingüística computacional

Abstract: DAWeb is a computer application developed as part of a project oriented to produce
tools designed to get at the big flow of linguistic information of Internet documents. It is a tool
for morphosyntactic analysis of great volumes of information —whole domains— reached by
its URLs. The simple application interfaz facilitates the configururation of how to accessing and
analysing the information obtained. The results of the process are organized in a suitable way
for posterior research.
Keywords: morphology, text analysis, Internet, computational linguistic

Introducción

realizados por
de Datos

1
El presente trabajo es proyección natural de los
esfuerzos
el Grupo de
Estructuras
Lingüística
y
computacional de la Universidad de Las Palmas
de Gran Canaria en los últimos años. Estos
trabajos se han centrado en el ámbito de la
lingüística computacional y han dado lugar,
entre otros
resultados, al desarrollo de
herramientas de reconocimiento y gestión
morfológica,
se
encuentran disponible para su utilización en

algunas de

cuales

las

la

en

del

página web

línea
grupo
(http://gedlc.ulpgc.es). Se propone la utilización
de dichas herramientas como parte de nuevas
aplicaciones cuyo objetivo es obtener provecho
del enorme caudal de información lingüística
que supone Internet.

DAWeb se orienta al estudio conjunto de
grandes vólumenes de documentos de forma
desasistida y adopta el
formato de un
descargador de páginas con la diferencia de que
en vez de bajar las páginas que accede, las
analiza y almacena sólo los resultados.

Las modalidades de análisis que puede
de
ISSN 1135-5948  2002 Sociedad Española para el Procesamiento del Lenguaje
Natural


detección

abarcan:

realizar

(1)

la





Santana Suárez, O.; Hernández Figueroa, Z.; Rodríguez Rodríguez, G.

que

palabra

cualquier

neologismos, entendiendo como tal, en primera
instancia,
las
herramientas de reconocimiento morfológico
incorporadas no identifiquen —luego habrá que
filtrar si se trata de entidades tales como
nombres propios, secuencias especiales o
incluso simples errores ortográficos—, (2) el
estudio del uso de las palabras, por medio de
diversas medidas cuantitativas y cualitativas, y
finalmente, (3) aspectos cercanos a la sintáxis
tales como el estudio de colocaciones léxicas o
regímenes preposicionales.



1) módulo

principales:

2 Arquitectura de DAWeb
DAWeb se halla estructurado, figura 1, en tres
de
módulos
configuración, 2) módulo de recuperación de
documentos y 3) módulo de análisis en línea; se
complementa con una aplicación externa —
programa mostrador— que se encarga de
presentar
resultados —generalmente
voluminosos— en formas adecuadas para su
estudio eficiente.

los

t

r

e
n
e
n

t

I

Módulo de
recuperación
de documentos

N

Módulo de
configuración

Módulo de Análisis

Mostrador



Figura 1: arquitectura de DAWeb

En

las siguientes secciones se habla
pormenorizadamente de cada uno de estos
módulos, se exponen sus funciones, se detallan
las interrelaciones que se establecen entre los
mismos y se
justifican
las políticas de
funcionamiento adoptadas.

76

t

r

e
n
e
n

t

I

Módulo de recuperación de documentos

Lista de direcciones
tratadas

Recuperador

1

Recuperador

2

Recuperador

N

Distribuidor

Lista de direcciones
pendientes

Lista de direcciones
a desechar

r

s
o
d
a
e
p
u
c
e

t

r

s
o
n
e
m
u
c
o
D

Incidencias



Figura 2: módulo de recuperación de

documentos



2,

por

figura

2.1 El Módulo de recuperación de
documentos
El módulo de recuperación de documentos está
un módulo
compuesto,
distribuidor y un número variable de módulos
recuperadores que interactúan con Internet.

2.1.1 El módulo distribuidor
El módulo distribuidor se encarga de repartir y
coordinar el trabajo entre los recuperadores y de
recibir los resultados que obtengan; les da
forma y los deja preparados para su entrega al
módulo de análisis o a cualquier otro que
pudiera realizar algún tipo de tarea con los
mismos.

El módulo distribuidor toma direcciones de
la lista de "direcciones pendientes" —creada
inicialmente por el módulo de configuración de
la recuperación, submódulo del módulo de
configuración—, y entrega una a cada
recuperador hasta que todos tengan la suya o
hasta que la lista de direcciones pendientes esté
vacía. A partir del momento en que todos los
recuperadores tengan una dirección o todas las
direcciones hayan sido asignadas, el quehacer
del módulo distribuidor consiste en esperar
hasta que alguno de los recuperadores obtenga
resultados de su gestión; cuando ocurre, el
módulo distribuidor requiere el documento que
obtiene el recuperador en el acceso a la
dirección encomendada y lo incluye en la lista
de documentos recuperados —funciona como
una cola de documentos pendientes de
analizar—, también interpela al recuperador
acerca de la lista de direcciones asociadas a los
hiperenlaces del documento conseguido.



DAWeb

Las direcciones que el recuperador se ha
encargado de extraer deben confrontarse por
triplicado:
1. Con la lista de direcciones pendientes para
no duplicar una dirección incluida en la
petición inicial u obtenida como resultado
de otros accesos.

2. Con la lista de direcciones ya recuperadas,
la

redundancias

en

para
evitar
recuperación.

el

la

de

los

toda

criterios

3. Con

direcciones
desechables —los establece el módulo de
configuración— para comprobar que
constituyen candidatos aceptables de cara a
posteriores expansiones de la búsqueda de
documentos en curso.
Las direcciones que salven este triple filtro
se añadirán a la lista de direcciones pendientes
y contribuirán a engrosar el conjunto de
materiales que se obtengan por desarrollo de la
petición inicial hasta el límite posible.
Una vez que se ha extraído

la
información que el recuperador es capaz de
proporcionar,
al
recuperador una nueva dirección a partir de la
lista de direcciones pendientes y vuelve al
estado de espera.

distribuidor

asigna

El trabajo del módulo de recuperación de
documentos concluye cuando
lista de
direcciones pendientes está vacía y ningún
recuperador se halla navegando o intentando
navegar —circunstancias de las que se apercibe
el módulo distribuidor. Si la lista de direcciones
pendientes está vacía, pero algún recuperador
está ocupado, podría ocurrir que obtuviese
algún documento con hiperenlaces, y habría que
esperar para saber si el proceso aún debe
continuar.

De fracasar el encargo asignado a un
recuperador, el módulo distribuidor evaluará las
circunstancias que han provocado tal situación
y optará por volver a intentar la misma
dirección con posterioridad o la desestimará por
considerar que no va a ser posible acceder a la
página —dirección errónea o acceso fallido y se
anota en Incidencias—; en cualquier caso, si
hay direcciones pendientes le entregará una
nueva al recuperador malogrado —en ningún
caso
dirección
inmediatamente, ya que el recuperador lo habrá
probado hasta el límite establecido en la
configuración antes de decidirse a comunicar su
fallo.

la misma

reintentará

El módulo distribuidor genera un informe de
Incidencias en el que se relacionan: las páginas



77



solicitadas, las páginas obtenidas y las páginas
no recuperadas —indica la causa aparente del
fallo.

se

2.1.2 Los módulos recuperadores
Cada módulo recuperador es un gestor de
(HiperText Transfer
transacciones HTTP
Protocol) que
en un hilo
independiente. En paralelo pueden ocurrir:
1) otras
recuperaciones, 2) el distribuidor
obtiene datos de los recuperadores que hayan
finalizado con éxito su gestión y 3) el
analizador procesa documentos recuperados con
anterioridad.

ejecuta

Se pretende aprovechar al máximo el tiempo
de us
  • Links de descarga
http://lwp-l.com/pdf264

Comentarios de: DAWeb: Un descargados y analizador mofológico de páginas web (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad