PDF de programación - Ontologías, taxonomías y agentes: recuperación “semántica” de la información

Volver

<<>>

Ontologías, taxonomías y agentes: recuperación “semántica” de la información

Publicado el 19 de Abril del 2018

770 visualizaciones desde el 19 de Abril del 2018

109,4 KB

10 paginas

Creado hace 22a (05/11/2003)

Ontologías, metadatos y agentes: recuperación “semántica” de la

información

Peis Redondo, Eduardo, Hassan Montero, Yusef

Dept. Biblioteconomía y Documentación
Fac. Biblioteconomía y Documentación.

Campus de la Cartuja, Universidad de Granada – España.

[email protected]

Herrera Viedma, Enrique, Herrera, Juan Carlos

Dept. Ciencias de la Computación e Inteligencia Artificial

Fac. Biblioteconomía y Documentación

Campus de la Cartuja, Universidad de Granada – España.

[email protected]

A pesar de que la Web permite el acceso a una impensable cantidad de información, no
constituye, ni mucho menos, un mecanismo de localización perfecto: los motores de búsqueda
realizan una labor útil, pero puede afirmarse que están llegando al límite de sus posibilidades; la
sobrecarga informativa produce la sensación de colapso; está comprobado que las técnicas
léxico-estadísticas, por sí solas, no pueden solucionar la problemática de la recuperación de la
información en la Web...

En el presente trabajo describimos la propuesta denominada “Web Semántica” - extensión de la
actual Web que pretende que no sólo los humanos, sino también las máquinas, sean capaces de
“comprender” el significado de los hiperdocumentos- con el fin de analizar su viabilidad y las
ventajas que implicaría en la Recuperación de Información en la Web.

Palabras clave: Web Semántica; Ontologías; Agentes Inteligentes; Redes de Confianza;

el

número

gigantesco

lugar a graves problemas en

1. INTRODUCCIÓN

A pesar de que el surgimiento de la Web ha
supuesto un cambio radical en cuanto a la
facilidad de acceso y difusión de la información
electrónica,
de
hiperdocumentos y su crecimiento exponencial,
sumados a su falta de estructuración lógica, está
dando
la
recuperación de información en la Web.

Los actuales buscadores, basados en indización
humana en el caso de los índices de búsqueda, e
indización automática en el caso de los motores
de búsqueda, son incapaces de ofrecer tasas de
exhaustividad y precisión realmente aceptables
en sus resultados.

El problema de la precisión en la recuperación
de
como
consecuencia de la falta de significado o
semántica que para los ordenadores tienen los
documentos Web, en su amplia mayoría
formateados mediante HTML - lenguaje de

información puede

ser visto

trabajo es:

etiquetado que únicamente es capaz de expresar
la forma de presentación (maquetación, colores,
tipografía...) de los contenidos -.

En el presente trabajo describimos la propuesta
denominada “Web Semántica” (Berners-Lee,
Hendler, Lassila; 2001), con el fin de analizar
su viabilidad y las ventajas que implicaría en la
Recuperación de Información en la Web. La
estructura seguida en el
(2)
Introducción al proyecto Web Semántica; (3)
Descripción de las tecnologías y lenguajes
implicados;
(4) Discusión acerca de
la
viabilidad del proyecto; y (5) Conclusiones.

2. WEB SEMÁNTICA

La propuesta inicial de World Wide Web que
Berners-Lee (1989) ideó, ya apuntaba a lo que
posteriormente
se ha denominado “Web
Semántica”, proyecto que podemos definir
como una extensión de la actual Web cuyo
objetivo es que no sólo los humanos, sino

la semántica de
metainformación

las máquinas, sean capaces de
también
“comprender” el contenido de los documentos.

Para que este objetivo sea posible es necesario
proveer de mecanismos y tecnologías con las
los
que poder definir
hiperdocumentos,
que
posteriormente podrá ser utilizada por agentes y
buscadores inteligentes con el fin de ofrecer
resultados precisos y contextualizados.

La infraestructura de tecnologías y lenguajes
necesaria para la implementación de la Web
Semántica se puede esquematizar en varias
capas o niveles (Berners-Lee; 1998):

• Un modelo básico para establecer asertos
(propiedades sobre los recursos), para el
–Resource
que
Description Framework- (Lassila, Swick;
1999);

empleará RDF

se

• Un modelo para definir relaciones entre los
recursos, a través de clases y objetos,
expresado mediante
Schema
(Brickley, Guha; 2002);

RDF

• Una capa

lógica que permita realizar
consultas e inferir conocimiento, donde
entrarían en juego las ontologías y los
agentes software;

• Una capa de seguridad que permita asignar
fiabilidad a determinados
niveles de
recursos,
de
comprobable
posteriormente por los agentes, para lo que
se usarán firmas digitales y redes de
“confianza”.

forma

El diagrama de la figura 1, presentado por
Berners-Lee en la XML Conference de 2000,
nos puede servir como aproximación visual al
conjunto de tecnologías que forman el esquema
de capas mencionado.

Figura 1

forma

-Uniform Resource

3. TECNOLOGÍAS Y LENGUAJES

3.1. URI

Los URI
Identifier-
(Berners-Lee et al.; 1998), cuyo subconjunto
más conocido son los URL -Uniform Resource
Locators-, proporcionan el mecanismo para
identificar de
inequívoca cualquier
recurso en la red: artículos, imágenes, sonidos,
etc. Con la Web Semántica, los URIs cumplirán
además con la función de identificadores de
objetos del mundo real. Cualquier objeto podrá
ser identificado mediante un URI: nuestro
microondas tendrá un URI asociado, el URI de
nuestra web personal o de nuestra dirección e-
mail nos identificará a nosotros, la función que
realizamos en nuestro trabajo se expresará
mediante un URI...

Los problemas que pudieran surgir en la
identificación de objetos – por ejemplo, un
mismo URI podría identificar dos objetos
distintas - están intentando ser resueltos por el
grupo de trabajo que el W3C ha designado para
tal fin1.

3.2. XML

En un nivel superior nos encontramos con los
documentos y su estructuración lógica. XML –
eXtensible Markup Language-, base sintáctica
de la Web Semántica sobre la que se sustentan
el resto de capas, es un metalenguaje que nos
permite definir nuestros propios lenguajes de
etiquetado validándolos mediante DTDs –
Document Type Definitions- o XML Schemas.
Si bien es cierto que un etiquetado XML, por sí
solo, no representa un mecanismo con el que
poder expresar la semántica de los documentos
(Cover; 1998), una migración progresiva de
HTML a
lenguajes de etiquetado XML
(XHTML –eXtensible HTML, SVG –Scalable
Vector Graphic-...) supondría un gran avance,
principalmente por la capacidad de XML para
utilizar espacios de nombre –XMLNamespaces-
(Bray, Hollander, Layman; 1999), para
diferenciar entre contenido y presentación (XSL
–eXtensible
y,
fundamentalmente, para que la Web pase de ser
un espacio hiperdocumental a un espacio
hiperconceptual gracias a
tecnologías en
desarrollo como Xlink –XML Linking and
(DeRose, Maler,
Addressing Languages-
Orchard; 2001) (Martelli, Signore; 2002).

Language-)

Stylesheet

sujeto

donde

3.3. RDF y RDF Schema

RDF es un lenguaje de etiquetado, creado
mediante sintaxis XML, que define un modelo
de datos para describir recursos (cualquier
objeto identificable por un URI), mediante
enunciados o asertos en forma de tripletas
sujeto-predicado-objeto,
y
predicado son URIs y objeto puede ser un URI
o un valor
literal. Ya que RDF es un
vocabulario XML, puede describir recursos de
forma externa a éstos o de forma embebida,
siempre y cuando estos recursos tengan sintaxis
XML.

Por otro lado, RDF Schema es un vocabulario
RDF que nos permite describir
recursos
mediante una orientación a objetos similar a la
de muchos lenguajes de programación como
Java. Para ello, proporciona un mecanismo para
definir clases, objetos y propiedades; relaciones
entre clases y propiedades; y, restricciones de
dominio y rango sobre las propiedades.

Mientras que la relación entre XML y XML
Schema es una relación de control sintáctico, la
relación entre RDF y RDFS es de control
semántico: el esquema XML asegura que los
elementos son usados correctamente, mientras
que un esquema RDF asegura que, por ejemplo,
en un aserto donde el sujeto es “carné de
conducir” y el predicado es “nombre”, el objeto
es el nombre de una persona y no el modelo de
un coche (Berners-Lee; 1998).

3.4. Ontologías

Las Ontologías han sido
tradicionalmente
usadas como modelo de representación de
conocimiento en Inteligencia Artificial. Según
la definición ofrecida por Gruber (1993) y
Studer,
posteriormente
Benjamins y Fensel (1998), una Ontología es
“una especificación explícita y formal de una
conceptualización”. Más concretamente, una
Ontología estará formada por una taxonomía
relacional de conceptos y por un conjunto de
axiomas o reglas de inferencia mediante los
cuales se podrá inferir nuevo conocimiento.

La Web, sin embargo, es mucho más extensa y
dinámica que una base de conocimiento
(Horrocks;
la
implementación de un lenguaje de definición de
ontologías estándar y la posterior consistencia

extendida

2002),

que

por

por

lo

un

reto

como

de dichas ontologías (Hendler; 2002), se
presentan
complicado,
principalmente por la naturaleza descentralizada
de la Web Semántica.

Con RDFS podemos describir jerarquías de
clases, tales como ontologías simples, sobre las
que poder realizar consultas y razonamiento
automático. Aún así, RDFS no es
lo
suficientemente expresivo para
representar
ontologías de la complejidad que necesita la
Web Semántica, ya que el agente inteligente
sólo podría realizar la inferencia sobre la