PDF de programación - Sistema Dinámico y Automático de Generación de Preguntas desde Fuentes Heterogéneas basada en Formatos de Publicación de la Web Semántica

Volver

<<>>

Imágen de pdf Sistema Dinámico y Automático de Generación de Preguntas desde Fuentes Heterogéneas basada en Formatos de Publicación de la Web Semántica

Sistema Dinámico y Automático de Generación de Preguntas desde Fuentes Heterogéneas basada en Formatos de Publicación de la Web Semántica

Publicado el 23 de Agosto del 2018

542 visualizaciones desde el 23 de Agosto del 2018

181,7 KB

5 paginas

Creado hace 18a (26/03/2008)

Sistema Dinámico y Automático de Generación

de Preguntas desde Fuentes Heterogéneas basada
en Formatos de Publicación de la Web Semántica

Jose María Álvarez Rodríguez y José Emilio Labra Gayo

Universidad de Oviedo, {UO1548,labra}@uniovi.es,

WWW home page: http://www.uniovi.es

Resumen. El presente artículo muestra la propuesta de un sistema ca-
paz de generar preguntas y respuestas coherentes desde recursos web
publicados de alguna forma (RDF, RSS, Atom, etc.) de forma automá-
tica y dinámica proveyendo así un servicio tanto lúdico como didáctico
para el usuario nal.

1.

Introducción

Una de las fortalezas de la web actual es la enorme cantidad de información
que se encuentra publicada en ella y la innidad de servicios a los que se puede
acceder. Sin embargo, si la explotación de estos recursos requiriese necesaria-
mente la intervención humana, como sucede ahora, su utilidad estaría limitada.
De ahí que el W3C pretenda guiar a la web hacia su máximo potencial como
herramienta universal y multipropósito. La Web Semántica ideada por Tim B.
Lee proporciona una infraestructura para explotar ecientemente el potencial de
la web, sin embargo es aún reciente, y su eclosión se está produciendo actual-
mente. Es importante señalar que el concepto de documento entendible por una
máquina no implica algún tipo de inteligencia articial mágica que permita a
las máquinas comprender el farfullar de los humanos. Sólo indica una habilidad
de la máquina para resolver un problema bien denido a base de realizar ope-
raciones bien denidas sobre unos datos bien denidos. En vez de pedir a las
máquinas que entiendan nuestro lenguaje, se le pedirá a la gente que haga un
esfuerzo extra1. Por tanto, desposeída de su aura mágica al no constar entre sus
objetivos la conquista del lenguaje natural, la Web Semántica queda reducida a
un intercambio de información eciente entre los agentes.

1.1. Web Semántica Aplicada

La arquitectura propuesta para la Web Semántica más conocida como tarta
o pila, se diseño con diferentes capas de abstracción que construyen un frame-
work semántico, recogiendo supuestamente, todas las necesidades para la ges-
tión del conocimiento. Cada uno de las capas enriquece a la inmediatamente

1 A roadmap to the Semantic Web. What the semantic Web isn't but can represent

(1998). http://www.w3.org/DesignIssues/RDFnot.html.

inferior proveyendo nuevos servicios o niveles de formalización superior del co-
nocimiento. Aunque, ha sido revisada [5] con un enfoque más práctico (inclusión
de SPARQL2) y por cuestiones relativas a la lógica y a las reglas sólo debería ser
tomada como una referencia ya que las aplicaciones en múltiples ocasiones no
necesitan aplicar todos los niveles propuestos, y tan sólo, con una simple expor-
tación de datos en un formato como RDF es suciente para que otros agentes
puedan trabajar ecientemente con la información produciendo nuevos servicios.
En esta línea, se está trabajando activamente con propuestas como Linking Da-
ta 3 para la publicación de información en la web (versión de Tim4) o el servidor
de metadatos de Eurostat RAMON5. Otras como RDFa6(adición de semántica
a documentos Xhtml generalizando atributos de metainformación) o GRDDL7
(extración de RDF de documentos XML mediante XSL) están en esta línea de
marcado y exportación de la información de forma homogénea. Finalmente, hay
que destacar el vocabulario SKOS que utiliza el modelo de datos de RDF para la
creación de vocabularios controlados en general: tesauros, taxonomías, etc. que
se presentan especialmente utiles para las aplicaciones8 sin necesidad de recurrir
a las ontologías. En denitiva, nos encontramos ante un modelo semántico uni-
cado basado en RDF que permite tratar cualquier recurso como una entidad
con descripción asociada.

1.2. Aprovechamiento de la Información

Disponemos de información de forma pública y con un modelo de datos co-
mún (RDF o similares9). También contamos con un lenguaje de consulta para
extraer esta información (SPARQL o Xpath), y podemos construir servicios y
aplicaciones basados en el uso de esta tecnología: como pueden ser los widgets
disponibles en IGoogle o FaceBook, pero realmente, nuestra interacción (desde
un punto de vista humano) con la información es ínma y desaprovechada por-
que queda reducida a solicitar cierto recurso y procesar el contenido visualmente
con un widget o programa más o menos usable y en algunos casos, podemos
personalizar los recursos añadiendo metainformación a través de tags pero aún
así, el aprovechamiento potencial de la información queda reducido de cara al
usuario.

Nuestra propuesta de creación de un sistema de generación automático y
dinámico de preguntas se basa en el uso de toda esta información para crear
un servicio de valor añadido, no sólo de consulta, que permita a los usuarios

2 http://www.w3.org/TR/rdf-sparql-query/
3 http://linkeddata.org/
4 http://www.w3.org/DesignIssues/LinkedData.html
5 http://ec.europa.eu/eurostat/ramon
6 http://rdfa.info/
7 http://www.w3.org/TR/grddl/
8 Alistair

SKOS)

Miles

(editor

de

ha

publicado

su

tesis

http://isegserv.itd.rl.ac.uk/retrieval/ sobre Retrieval and the semantic web.

9 Versiones de RSS o Atom.

interaccionar con la información y sacarle el máximo partido, ya sea con carácter
lúdico o didáctico. Por ejemplo podríamos tener los siguientes ejemplos:

En la DBPedia10 [2] se han extraído todos los metadadatos de las páginas de
la WikiPedia y están disponibles en formato RDF (DBpedia+FOAF+otros)
de acuerdo a ciertas propiedades denidas. Por ejemplo podríamos generar
las siguiente pregunta:
1. El lugar de nacimiento (http://dbpedia.org/page/property/placeOfBirth)
de Jovellanos (http://dbpedia.org/page/property/name) es: 1)Asturias.
2)Generar otros. (Consultando otros placeOfBirth cercanos por latitud y
longitud). Solución en: http://dbpedia.org/page/Gaspar_Melchor_de_Jovellanos.

2. ¾Quién es el personaje de la foto (Mostrar foto de la propiedad foaf:depiction)?

Fernando Alonso. Generar otros (Mostrar fotos de relacionados p:after
of ).

En los periódicos digitales se publica información en RSS, por ejemplo po-
dríamos consultar el RSS de fútbol11 de la página de El Mundo y generar
una pregunta del estilo:
1. ¾Cuál fue el resultado del partido Murcia-Real Madrid (title en el item
RSS)?. 1)Respuesta en la descripción. 2) Otras respuestas tomadas de
los demás ítems presentes.

Podríamos proceder de la misma forma con la información de diferentes
portales (Yahoo, BBC, TheServerSide, IMDB, etc.)
Wordnet es una base de conocimiento lexicográca en Inglés (también dispo-
nible en RDF 12. Podríamos generar preguntas del estilo: Dime un sinónimo
de cat (para las respuestas consultamos un sinónimo y otras palabras si-
milares fonéticamente).
Common Procurement Vocabulary, es una taxonomía de productos y servi-
cios que se puede conseguir en RDF. Podríamos generar una pregunta del
estilo: ¾Dime cuál no es un cereal? Consultaríamos la clasicación y podría-
mos obtener diferentes opciones para las posibles respuestas tanto para las
correctas como para las inválidas.
Nomenclator de Asturias 200613, contiene información sobre las entidades
geográcas, y también se puede obtener en RDF, podríamos generar pregun-
tas del estilo: 1)¾Cuál es la capital de Allande?. 2)¾Qué es Oviedo? (Capital,
Concejo, Casería, etc.).

En general, tanto las preguntas como las respuestas a generar siguen siempre
una plantilla para un determinada fuente de información, es decir, la tripleta
de RDF (S,P ,O) formará la pregunta y las respuestas estarán formadas por
tripletas RDF (Si,P ,Oi) donde S y Si sean sujetos similares, los predicados P
y Pi deben ser iguales para generar preguntas coherentes y los objetos O y Oi
serán las posibles respuestas reales, según su similaridad la pregunta será más o
menos difícil.

10 http://dbpedia.org/
11 http://rss.elmundo.es/rss/descarga.htm?data2=31
12 http://www.w3.org/TR/wordnet-rdf/
13 http://www.sadei.es/Publi/Demogracas/Nomen/2006/Panta.htm

1.3. Contribución Principal

Construir un sistema que sea capaz de procesar fuentes heterogéneas de re-
cursos que utilicen formatos de publicación típicos en Web Semántica como
RDF o RSS, generando tanto preguntas como respuestas de diferentes niveles de
dicultad (por ejemplo utilizando navegación entre los recursos) y temas (actua-
lidad, deportes, tecnología, etc.). Con un doble objetivo:1. Lúdico competitivo,
análogo a un Trivial, con uso oine por interés propio o competitivo en red con
otros usuarios.2. Didáctico [8,3], análogo al Brain Training o English Training
de la consola Nintendo DS. Pero con la posibilidad de explicaciones y con la
información externalizada.

2. Sistema de Generación de Preguntas

La arquitectura del sistema propuesta, ver Fig.1, para la generación de pre-
guntas tiene en cuenta las siguientes características: 1. Las preguntas deben estar
clasicadas en un tema determinado. 2. Cada pregunta tendrá un nivel de di-
cultad calculado según la similaridad de las respuestas y el karma del tema,
es decir, se establece un pseudo Query Rank y Answer Rank para valorar la
dicultad de la pregunta y de las respuestas, y así, determinar su dicultad.

Fig. 1. Infraestructura del Sistema de Generación de Preguntas

Registro de DataSource: el sistema es capaz de dar de un alta una nueva
fuente de datos, para ello deberá implementar el interfaz con las operaciones
necesarias para independizar el acceso a la información.

Adaptador de DataSource: debido a las distintas fuentes de información,
tanto de Web Semántica como tradicionales, es necesario adaptar los da-
tos recibidos del datasource para unicar el acceso y las operaciones sobre
la información desde un punto de vista de la lógica propia de la aplicación.
Generador de preguntas: una vez que podemos tratar la información de un
datasource de forma homogénea, este módulo se encargará de generar pre-
guntas (Query Rank [6]) y respuestas (Answer Rank y Spread