INTEGRACIÓN DE APLICACIONES
WEB
AUTOMATIZACIÓN DE LA NAVEGACIÓN Y EL
RELLENADO DE FORMULARIOS DE BÚSQUEDA DE LA
HIDDEN WEB
CARLOS RIVERO
UNIVERSIDAD DE SEVILLA
MEMORIA DE INVESTIGACIÓN
DR. DAVID RUIZ & DR. RAFAEL CORCHUELO
SEPTIEMBRE, 2008
First published in September 2008 by
The Distributed Group
ETSI Informática
Avda. de la Reina Mercedes s/n
Sevilla, 41012. SPAIN
Copyright c MMVIII The Distributed Group
http://www.tdg-seville.info
[email protected]
In keeping with the traditional purpose of furthering science, education and research,
it is the policy of the publisher, whenever possible, to permit non-commercial use and
redistribution of the information contained in the documents whose copyright they
own. You however are notallowed to take money for the distribution or use of these
results except for a nominal charge for photocopying, sending copies, or whichever
means you use redistribute them. The results in this document have been tested ca-
refully, but they are not guaranteed for any particular purpose. The publisher or the
holder of the copyright do not offer any warranties or representations, nor do they
accept any liabilities with respect to them.
Categorías (ACM 1998): H.3.3 [Information Search and Retrieval]: Information fil-
tering, Query formulation, Retrieval models, Search process; H.5.3 [Group and Or-
ganization Interfaces]: Web-based interaction; H.5.2 [User Interfaces]: Graphical user
interfaces (GUI), Interaction styles (e.g., commands, menus, forms, direct manipula-
tion); H.5.4 [Hypertext/Hypermedia]: Navigation, User issues.
Financiación: Plan Nacional de I+D+I (expediente TIN2007-64119) y la Orden de
Incentivos de la Junta de Andalucía (expediente P07-TIC-02602).
Índicegeneral
Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IX
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI
I Contexto de investigación
1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1
¿Qué es la hidden Web? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Accediendo a la hidden Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3
IntegraWeb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Hipótesis y cuestiones de investigación . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6
Estructura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
II Estado del arte
2 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Organización del estudio del estado del arte . . . . . . . . . . . . . . . . . 20
2.3
Protocolo de revisión de la bibliografía . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3 Acceso a la hidden Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Características de crawling y metasearch . . . . . . . . . . . . . . . . . . . . 27
Propuestas de tipo crawling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3
II
Índicegeneral
3.3.1 HiWE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.2 DeepBot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.3 Propuesta de Da Silva et al.
. . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.4 Otras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Propuestas de tipo metasearch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.1 Metaquerier
3.4.2 Propuesta de Meng et al.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4
4.1
4.2
4 Modelado de formularios de búsqueda . . . . . . . . . . . . . . . 41
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Problemas derivados del modelado . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.1 Extraer etiquetas de campos . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2
Identificar campos obligatorios . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.3 Descubrimiento de atributos . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.4 Establecimiento de correspondencias semánticas . . . . . . . . 46
4.2.5
Identificar información semántica avanzada . . . . . . . . . . . . 47
4.2.6 Relaciones lógicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.7 Extraer capacidad de consulta . . . . . . . . . . . . . . . . . . . . . . . . 49
Propuestas de modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3.1 Chang et al.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3.2 Meng et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.3 Álvarez et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.4 Garcia-Molina et al.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3.5 Otras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4
Framework de comparación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.5 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3
5 Lenguajes de consulta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2 RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3 RQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.4 RDQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.5
SeRQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.6
SPARQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.7 Otros lenguajes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.8
Framework de comparación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.9 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Índicegeneral
III
6 Herramientas para el rellenado y la navegación . . . . . . . . 97
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1
6.2
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.3 Watir, Watij y Watin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Selenium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.4
6.5 HTTPUnit
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.6
iMacros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.7 Otras herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.8
Framework de comparación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.9 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
III Consideraciones finales
7 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.1
. . . . . . . . . . . . . . 112
7.2 Modelado de formularios de búsqueda (CI1.1)
7.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.4 Herramientas para el rellenado y navegación (CI3) . . . . . . . . . . . 113
7.5 Otras cuestiones y trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Lenguajes de alto nivel (CI2)
IV Apéndices
A Implementación de un enquirer
. . . . . . . . . . . . . . . . . . . . 117
A.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.2 Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.3 Rellenado de formularios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.4 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
B Ejemplo motivador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
B.1 Ejemplo de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
B.2 Bancos de pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
B.3
Formularios de búsqueda de la hidden Web . . . . . . . . . . . . . . . . . 127
B.4 Código fuente del formulario de ejemplo . . . . . . . . . . . . . . . . . . . 128
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
IV
Índicegeneral
Índicedefiguras
1.1 Visión conceptual de la hidden Web .
Comentarios de: INTEGRACIÓN DE APLICACIONES WEB (0)
No hay comentarios