PDF de programación - Motores de Búsqueda Web - Tarea Tema 1

Imágen de pdf Motores de Búsqueda Web - Tarea Tema 1

Motores de Búsqueda Web - Tarea Tema 1gráfica de visualizaciones

Publicado el 5 de Febrero del 2017
619 visualizaciones desde el 5 de Febrero del 2017
700,7 KB
10 paginas
Creado hace 13a (25/04/2011)
Motores de Búsqueda Web



Tarea Tema 1



José Alberto Benítez Andrades

71454586A

Motores de Búsqueda Web
Máster en Lenguajes y Sistemas Informáticos - Tecnologías del Lenguaje en la Web
UNED
15/01/2011



Motores de Búsqueda Web - Tarea Tema 1 José Alberto Benítez Andrades



15 de enero de 2011

Tarea 1

Enunciado del ejercicio



La tarea del tema 1 consiste en localizar, entre los proceedings de la conferencia

WWW de los últimos tres años (2006-2008), dos artículos relevantes que estudien las

estrategias con que los usuarios utilizan los buscadores web o, en general, localizan

información en la Web. Debe señalarse, para cada artículo, cuál es su contribución principal y,

al menos, dos aspectos potencialmente mejorables del trabajo presentado por sus autores.

1. Resolución



Los proceedings elegidos son los siguientes:

1. Automatic Identificacion of User Intereset For Personalized Search - Fenq Qiu y Junghoo Cho
- WWW Conference 2006.

Enlace: http://www2006.org/programme/files/pdf/580.pdf

2. Investigating Behavioral Variability in Web Search - Ryen W. White y Steven M. Drucker -
WWW Conference 2007.

Enlace: http://www2007.org/papers/paper535.pdf

1.1.Automatic Identificacion of User Intereset For Personalized Search


En este primer proceeding, sus autores comienzan explicando la necesidad de que los
buscadores capten lo que el usuario realmente quiere buscar con un buscador personalizado.
Explica con un ejemplo, que dos usuarios pueden buscar con un mismo término cosas
diferentes, por ejemplo: alguien que busque en google "office" puede estar buscando una
oficina en la que trabajar, sin embargo otra persona que teclea lo mismo, puede estar
buscando el programa de Microsoft que tiene ese mismo nombre.

Es una tarea compleja la de poder diferenciar lo anterior, pero ellos dan una serie de
pasos a seguir para conseguir el objetivo de crear un buscador personalizado. En primer lugar,
se necesita crear un modelo de usuario razonable que capture el historial de cada usuario con
sus temas de interés. Basándonos en este modelo, se necesita diseñar un método de
aprendizaje que identifique el interés del usuario. Y por último, se necesita desarrollar un
mecanismo de ranking que considere el interés aprendido de cada usuario en sus resultados
de búsqueda.

de ranking llamado Topic-Sensitive PageRank.



El trabajo realizado por Feng Qiu y Junghoo Cho, se basa en la aplicación de un sistema



Página 2



Motores de Búsqueda Web - Tarea Tema 1 José Alberto Benítez Andrades


Page Rank y Topic-Sensitive PageRank.

15 de enero de 2011


En resumen, el PageRank se basa en un algoritmo de navegación aleatoria por páginas
realizando distintas búsquedas, teniendo en cuenta la cantidad de webs que están enlazadas a
otras y los enlaces que salen de ellas.

El Topic-Sensistive PageRank es una extensión del PageRank que puede dar distintos
rankings de las webs para diferentes consultas. Una web A puede tener una puntuación X para
una consulta Y y a su vez puede tener una puntuación distinta de X para una consulta Z.
Debido a que esta variante de PageRank, contempla puntuaciones según los temas que se
buscan, vieron los autores de este artículo interesante basarse en este modelo.


Búsqueda personalizada basada en las preferencias de los usuarios.


En esta parte del artículo, los autores explican cómo utilizan el método de ranking
anteriormente explicado para la personalización de las búsquedas. Los autores observan que
los usuarios generalmente que tienen preferencias hacia una serie de temas, no les interesan
otros temas, con lo cual pueden reducir el conjunto de todas las webs que hay en internet, a
un subconjunto más reducido. Por ejemplo, un físico que está interesado en artículos
relacionados con las ciencias físicas, por lo general, no va a estar interesado en leer artículos
relacionados con los videojuegos.

Representación de la preferencia de los usuarios.

Teniendo en cuenta esto, ellos presentan las preferencias de los usuarios de la


siguiente manera:

- Definición 1 ( Vector de preferencia de temática ) : Un vector de preferencia de temática se
define como el conjunto T = [T(1), ... , T(m)] de m-tuplas en los que m es el número de temas a
considerar y T(i) representa el grado de interés en el tema i.

Ejemplo 1: Suponemos que hay dos temas : "Ordenadores" y "Noticias", y el usuarios se ha
interesado tres veces en "Ordenadores" y una vez en "Noticias". El vector de preferencia es
[0.75,0.25].

- Definición 2 ( Vector de preferencia de página ) : Un vector de preferencia de página se define
como un conjunto P = [P(1), ... , P(n)] donde n es el número total de páginas web , P(i)
representa el grado de interés de una web i.

En muchas ocasiones este vector puede parecer mejor que el de preferencia temática, ya que,
al guardar las páginas web que más visita, se conoce más detalladamente los gustos del
usuario. Pero esto no es del todo bueno, ya que, pueden existir en internet muchas webs de la
temática que le gusta que sean más interesantes que las que generalmente visita el usuario,
por ello es necesario el primer vector.



Página 3



Motores de Búsqueda Web - Tarea Tema 1 José Alberto Benítez Andrades

15 de enero de 2011


Modelo de usuario


Para conseguir el vector de preferencia de temática, debemos obtener la información
de páginas a las que clicka el usuario, y el grado de interés que tiene el usuario en ellas. Para
conseguir esto, primero utilizan el modelo topic-driven random surfer model.

- Definición 3 ( Topic-driven random surfer model ) : Considerando un usuario con vector de
preferencia T. Bajo este modelo, el usuario navega por la web en dos pasos. Primero, el
usuario elige un tema de interés t para la secuencia de navegación aleatoria con probabilidad
T(t). Entonces, con igual probabilidad, el navegador va a una de las webs con temática t.
Comenzando por esta página, el usuario realiza una navegación aleatoria, como en cada paso,
con probabilidad d, aleatoriamente sigue un enlace de salida en la misma página; con la
restante probabilidad 1 - así recoge las que son "aburridas" y vuelve a repetir todos estos
pasos con una temática nueva.

Ejemplo : Suponemos que hay 2 temáticas : "Ordenadores" y "Noticias" y un vector de
preferencia [0.7,0.3]. Bajo el modelo explicado anteriormente, significa que un 70% de la
sesión de navegación aleatoria va a estar dedicada a los ordenadores y un 30% a noticias.
Teniendo en cuenta esto, y el método de Ranking elegido (Topic-Sensitive PageRank TSPR),
crean un vector de probabilidad de visitas.

- Definición 4 ( Vector de probabilidad de visita ) : Está definido por un conjunto V = [V(1),..
,V(n)] en el que n es el número total de páginas y V(i) representa la probabilidad de que el
usuario visite esa página i.

Pero para poder conseguir esto, Feng Qiu y su compañero, mejoraron la manera de navegar,
dejando de ser aleatorio y pasando a utilizar el modelo Topic-Driven Searcher Model.

- Definición 5 ( Topic-Driven Searcher Model ) : Considerando un usuario con un vector de
preferencia T. Bajo un modelo de este tipo, el usuario siempre visita las páginas a través de un
buscador en dos pasos. Primero el usuario elige un tema de interés t con probabilidad T(t).
Entonces el usuario va al motor de búsqueda y realiza una consulta con la temática elegida t. El
buscador devuelve las páginas rankeadas por el TSPR.

Arpendiendo el Vector de preferencia de temática


Basándose en el modelo de usuario anterior y en el método TSPR, se realiza un estudio
de las preferencia del usuario. Si por ejemplo, de 10 páginas dadas, el usuario entra 2 veces a
una, una vez a otra y ninguna vez al resto, habrá un vector de preferencia del estilo V =
[2/3,1/3,0,0...]

Una vez finalizan la explicación de los distintos algoritmos que existen y las personalizaciones
que realizan, en el artículo comentan los distintos resultados obtenidos haciendo distintos
experimentos y tratando con distintos métodos de PageRank.



Página 4



Motores de Búsqueda Web - Tarea Tema 1 José Alberto Benítez Andrades


Conclusionesde los autores

15 de enero de 2011


Después de realizar todas las pruebas, comentan sus autores como conclusión final,
que el sistema inicial de PageRank se puede mejorar notablemente realizando unos cambios
como los realizados por ellos mismos para realizar este experimento. Señalan que google ha
comenzado a desarrollar un servicio de búsqueda personalizada que parece estimar el interés
del usuario por distintas consultas anteriores.



Mejoras posibles de este estudio


El estudio realizado por Feng Qiu y Junghoo Cho me ha parecido bastante interesante y
muy bien planteado. Quizá yo hubiera planteado el tema de las búsquedas personalizadas
añadiendo una serie de parámetros más para mejorar los resultados.

Una posibilidad, es la adición de un sistema de votos de web por consulta, de manera
que, el propio usuario, de una lista de webs dadas realizando una búsqueda, pueda votar del 0
al 10, el contenido de la página web que ha consultado, indicando si la información que
contiene le ha servido o no.

Tengo ent
  • Links de descarga
http://lwp-l.com/pdf2279

Comentarios de: Motores de Búsqueda Web - Tarea Tema 1 (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad