PDF de programación - Motores de Búsqueda Web - Tarea 1

Imágen de pdf Motores de Búsqueda Web - Tarea 1

Motores de Búsqueda Web - Tarea 1gráfica de visualizaciones

Publicado el 5 de Febrero del 2017
633 visualizaciones desde el 5 de Febrero del 2017
209,9 KB
8 paginas
Creado hace 13a (07/12/2010)
Motores de Búsqueda Web  

Tarea 1 

 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

José Alberto Benítez Andrades
71454586A
Motores de Búsqueda Web
Máster en Lenguajes y Sistemas Informáticos ‐ Tecnologías del Lenguaje en la Web
UNED
07/12/2010

 

 

 

 

 

 

Motores de Búsqueda Web ‐ Tarea 1                                                  José Alberto Benítez Andrades                                   

 

7 de diciembre de 2010 

Tarea 1 

Enunciado del ejercicio 
Como introducción a los buscadores Web, os proponemos la lectura de este artículo: 
 
Arvind  Arasu,  Junghoo  Cho,  Hector  García‐Molina,  Andreas  Paepcke  y  Sriram  Raghavan: 
Searching the Web. ACM Transactions on Internet Technology, vol. 1, num. 1, Agosto 2001, pp. 
2‐43.  Una  vez  leido  este  articulo,  debéis  seleccionar  en  scholar.google.com  tres  artículos 
recientes (2005 o posterior) que lo citen y que tengan el mayor impacto posible, y a partir de 
ellos discutir tres factores en los que la investigación actual se sitúa mucho más allá de lo que 
se plantea en el artículo original. 

‐ Después de realizar la lectura del artículo Searching the web he seleccionado los tres 

 
artículos siguientes, que lo citan en sus referencias: 

1.Using PageRank to Characterize Web Structure   

http://akpeters.metapress.com/content/6p488374j8h21088/ 

2.Detecting Near‐Duplicates for web crawling  

http://portal.acm.org/citation.cfm?id=1242592 

3.IRLbot: Scaling to 6 Billion Pages and Beyond  

http://portal.acm.org/citation.cfm?id=1541822.1541823 

 

1. Resumen y conclusión del artículo Searching the Web 
En el artículo Searching the web, se tratan diferentes puntos sobre el rastreo web, el 
 
almacenamiento  de  páginas,  la  indexación  y  el  uso  de  diferentes  técnicas  para  el  diseño  e 
implementación de una serie de componentes. 

En primer lugar, realiza un pequeño resumen del diseño del motor de búsqueda en el 
 
año  2001.  Posteriormente  introduce  una  arquitectura  de  un  motor  genérico  del  cual  se 
examinarán los distintos componentes. Trata también descriptores de categorías, servicios de 

  
 

Página 2

Motores de Búsqueda Web ‐ Tarea 1                                                  José Alberto Benítez Andrades                                   

7 de diciembre de 2010 

 
información,  sistemas  y  software,  y  algoritmos  de  diseño  e  implementación.  También  habla 
sobre las palabras clave. 

1.1. Introducción. 
 
Los autores nos cuentan los distintos desafíos que se encuentran a la hora de realizar 
la  creación  de  buenos  motores  de  búsqueda,  enumeran  una  serie  de  técnicas  útiles. 
Concretamente, nos detallan las técnicas de IR (Information Retrieval), las cuales sirven para 
recuperar información de colecciones pequeñas, como por ejemplo, artículos de periódicos y 
catálogos de libros en bibliotecas. 

Sin  embargo,  estas  técnicas  de  IR,  no  son  válidas  para  la  web,  ya  que  hay  un  gran 
 
volumen de ellas y usarían demasiados recursos, así que trata de mostrarnos técnicas nuevas 
como  la  indexación  que  produce  escalabilidad  a  la  hora  de  realizar  rastreos  web,  el  uso  de 
técnicas  de  discriminación  de  webs  con  contenido  irrelevante.También  tiene  en  cuenta  si  la 
página es referida por otras páginas con unos términos concretos, lo que denotaría que esa 
página es importante con esos términos concretos. 

En el año 2001 ya existían billones de páginas web en el mundo. En 1998, las páginas 

 
web pesaban entre 5 y 10 kbytes, 2 años más tarde duplicaron su tamaño. 

 
En este artículo realizaron un estudio sobre medio millón de páginas, de las cuales, el 
23% se actualizaban a diario, el 40% tenían dominios .com, el 28% funcionaban como núcleo y 
otro 44% podían enlazarse con el núcleo, pero no podían ser alcanzadas desde él. 

Nos  explican  el  funcionamiento  de  los  crawlers,  que  son  pequeñas  aplicaciones 
 
encargadas  de  rastrear  un  repositorio  de  páginas  web,  observando  los  cambios  que  hay  en 
ellas,  incluyendo  nuevas  páginas  que  encuentran,  etc.  A  través  de  complejos  algoritmos  de 
rastreo. Cuando el rastreador completa un ciclo, ya sabe qué páginas son las que debe rastrear 
y cuáles no. La optimización de recursos se consigue gracias a la indexación. 

1.2. Rastreo de páginas web 
 
En el segundo punto del artículo, nos resume las distintas funciones que debe hacer el 
rastreador a la hora de recoger la información de todas las webs. En primer lugar, las páginas 
pasan  por  un  módulo  de  rastreo  que  recupera  las  páginas  para  un  análisis  posterior  por  el 
módulo  de  indexación.  A  través  de  un  conjunto  de  webs  que  son  recibidas,  se  asigna  una 
prioridad a cada una de ellas para que sean analizadas. 

  
 

Página 3

Motores de Búsqueda Web ‐ Tarea 1                                                  José Alberto Benítez Andrades                                   

7 de diciembre de 2010 

 
 
Surgen problemas debido al gran tamaño y al constante cambio en las webs: 1) ¿ Qué 
páginas  deben  ser  descargadas  por  el  rastreador  ?  y  2)  ¿  Cómo  debe  actualizar  las  webs  el 
rastreador ? 

El problema 1 se soluciona con prioridades por fracciones web, y el problema 2, que va 
 
unido al primero, se soluciona revisitando las webs que más cambien, porque si no se perderá 
mucho tiempo. 

 
Otros  problemas  que  surgen  son  por  ejemplo:  3)  ¿  Cómo  reducirse  la  carga  en  las 
páginas visitadas? y 4) ¿Cómo debe el proceso de rastreo ser paralizado?. El primer problema, 
es bastante grave, ya que, el rastreo de webs consume mucho ancho de banda y mucha cpu, 
con lo cual, se deben minimizar los recursos al máximo. El problema 4) se soluciona mediante 
la paralelización de procesos. 

 
Un  tema  que  también  es  tratado  de  manera  bastante  amplia  en  el  artículo  es  el 
método  de  selección  de  páginas,  en  el  cual  tratan  distintos  modelos  de  importancia,  por 
popularidad,  interés,  ubicación  ,  etcétera.  Unido  a  esto,  vienen  los  modelos  de  rastreo, 
concretamente trata sobre dos: rastreo y parada, rastreo y parada con umbral. 

Además, la actualización de las páginas, o la "frescura" de los enlaces que hay en el 

 
buscador  y estrategias de actualización son otros temas derivados en este punto. 

1.3. Almacenamiento: Desafíos y repositorios. 
 
repositorios de almacenamiento de colecciones grandes páginas web.  

En  el  tercer  punto  del  artículo,  trata  sobre  la  escalabilidad  que  debe  haber  en  los 

 
Esto conlleva una serie de desafíos, ya que, el repositorio gestiona una gran colección 
de objetos de datos (en este caso páginas web), similar a sistemas de ficheros o a bases de 
datos. Surgen problemas como: escalabilidad, acceso dual, grandes actualizaciones a granel y 
páginas obsoletas. 

1.4.  Indexación:  Estructuras  de  índices,  desafíos,  particionamientos, 
sistemas de indexación de textos. 
 
Existe  un  módulo  de  análisis  que  crean  una  variedad  de  índices.  El  análisis  produce 
enlaces,  índices  de  texto  e  índices  de  utilidad.  Las  etiquetas  html  H1,  H2  o  <b>  facilitan  el 
trabajo a los analizadores para saber qué información es la más importante en una web. 

  
 

Página 4

Motores de Búsqueda Web ‐ Tarea 1                                                  José Alberto Benítez Andrades                                   

7 de diciembre de 2010 

 
 
muy importantes, que facilitan la comprensión de textos por parte de los rastreadores 

Con los índices lo que se crean son unos grandes grafos que poseen nodos y enlaces 

1.5. Ranking y análisis de enlaces: PageRank, algoritmos HITS y otras 
técnicas. 
 
Al  ser  tan  grande  internet,  la  manera  de  evaluar  qué  web  es  más  importante,  es 
complejo. Así que se crearon distintos algoritmos que evalúan la importancia de una página 
web en función de diferentes parámetros. 

Por un lado está el PageRank, que tiene variaciones: el PR Simple y el PR Práctico. El 
 
PageRank depende de la importancia de las webs, y los enlaces que existen desde ella y hacia 
ella, a más importante sea una web, más PageRank transmite a las webs que él mismo enlaza. 

El otro algoritmos, HITS, se encarga de identificar, dada una consulta, un conjunto de 

 
páginas web naturales o páginas web de autoridades. 

2.Breve resumen de los 3 artículos seleccionados. 

2.1.Using PageRank to Characterize Web Structure 
 
PageRank analizando diferentes modelos que han creado a lo largo del experimento.  

Los  autores  comentan  en  el  Abstract  sobre  la  existencia  de  una  ley  que  sigue  el 

 
Comentan sobre la importancia de los algoritmos de escalabilidad web, comunidades 
de  minería,  etcétera,  que  dan  lugar  a  la  ley  de  PageRank  que  se  rige  por  una  serie  de 
exponentes. Respecto a la distribución de los grados de PageRank existen dos puntos de vista: 
Mecanismos de ranking (ordenando las webs por popularidad) y el punto de vista de la teoría 
de grafos. El 1º más famoso es el PageRank. 

La  web  es  un  grafo  cuyos  nodos  son  páginas  html,  poseen  un  grado  entrante  y  un 
 
grado saliente. El grado entrante son los hiperlinks que apuntan hacia el nodo, y los salientes, 
los hiperlinks a los que se accede desde el nodo. 

El  PageRank  asigna  un  valor  real  positivo  a  cada  web,  si  una  web  q  es  referenciada 
 
desde  muchos  lugares,  incrementa  su  PageRank.  Existe  un  problema,  muchos  usuarios 
acceden  a  las  webs  de  forma  totalmente  aleatoria,  lo  que  dificulta  que  el  PageRank  sea 
correcto. 

  
 

Página 5

Motores de Búsqueda Web ‐ Tarea 1                                                  José Alberto Benítez Andrades                                   

7 de diciembre de 2010 

 
 
Existen 3 modelos de grafos en la web: Modelos de grado, modelos de PageRank y el 
modelo híbrido, que mezcla los 2 algoritmos.
  • Links de descarga
http://lwp-l.com/pdf2278

Comentarios de: Motores de Búsqueda Web - Tarea 1 (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad