Publicado el 6 de Septiembre del 2017
506 visualizaciones desde el 6 de Septiembre del 2017
894,9 KB
21 paginas
Creado hace 20a (22/03/2004)
MASSACHUSETTS INSTITUTE OF TECHNOLOGY
SLOAN SCHOOL OF MANAGEMENT
15.565 Integración de sistemas de información:
Factores tecnológicos, organizativos y estratégicos
15.578 Sistemas de información globales:
Comunicaciones y conectividad en sistemas de información
Primavera 2002
Clase 17
LA WEB COMO BASE DE DATOS:
EVOLUCIÓN DE XML
1
Explorador
“información original”
A
C
B
Sitios Web
Uso tradicional de la Web: para uso humano directo Objetivo:entretenimiento
Programas para:
Mejorar
Empaq. Web y tecnología
de mediador de contexto
A
C
B
Sitios Web
Bases de datos
internas
2
Ejemplos:
Extrae solo información
de tasas hipotecarias
Compara las tasas hipotecarias
ofrecidas por distintas
fuentes
Crea una b. datos acumulativa
de las tasas hipotecarias
a lo largo de un periodo
Analizar
Depósito
Consolidar
Compara tasas acumulativas
con las almacenadas, alerta
de nuevos máximos y mínimos
Informes
de excepción
Procesar
Nuevo uso de la Web: intermediarios de programas Objetivo:productividad
Proyecto de INtercambio de COntexto (COIN) del MIT Sloan
Páginas
Web
PROCESADO
DE SALIDA
Aplica-
ciones
Receptores
Contr. ODBC
Publicación
Web
MEDIACIÓN
CONTEXTO
*Detección
automática
de conflictos
y conversión
-Datos derivados
-Selección fuente
-Atrib. fuente
AGENTES DE
CONFIANZA
PROCESADO
DE ENTRADA
* * Empaquet.
Web
automático
-- Texto semi
estructurado
-- Plan y ejecu-
ción de consulta
de varias fuentes
Fuentes
Bases
de datos
Exploradores
APLICACIONES:Servicios financieros, comercio electró-
nico, visibilidad de activos, visibilidad en tránsito
Ejemplo de datos Web semiestructurados: Archivos SEC de Intel
4
Arquitectura Cameleon
SQL
Datos
Extremo relacional
Planificador
Optimizador
Ejecutor
Aplicación
Salida en el
formato deseado
Consulta SQL sencilla
y formato de salida
Núcleo
Recuperación
Extracción
Gestión de consultas
Registro
Cliente HTTP
Motor de expresiones
comunes
Analizador de archivos Spec
Authentication, S
Web o b. de datos
Archivos Spec
5
Ejemplo de registro de datos de la CIA
http://www.odci.gov/cia/publications/factbook/geos/sn.html
CONSULTA CAMELEON:
Select capital, location, coordinates, totalarea, climate, population, GDP
from CIA while Country="Singapore"
RESULTADOS DE CAMELEON:
Southeastern Asia, islands between Malaysia and Indonesia (Sureste asiático, islas entre Malasia e Indonesia)
Registro 1
CAPITAL
Singapore (Singapur)
LOCATION (UBICACIÓN)
COORDINATES (COORDENADAS)
1 22 N, 103 48 E
TOTALAREA (ÁREA TOTAL)
647.5 sq km (647,5 km cuadrados)
CLIMATE (CLIMA)
tropical; hot, humid, rainy; no pronounced rainy or dry seasons; thunderstorms occur on 40% of all days (67% of days in April)
tropical; cálido, húmedo, lluvioso; sin estaciones claras lluviosas o secas; tormentas en el 40% de los días (67% de los días de abril)
POPULATION (POBLACIÓN)
4,151,264 (July 2000) (4.151.264 (julio de 2000))
GDP (PNB)
$98 billion (1999) (98.000 millones de dólares (1999))
7
Archivo Spec para registro de la CIA (parcial)
#Relation=cia
#Source=http://www.odci.gov/cia/publications/factbook/country.html
#Attribute=Link#String
#Begin=Top\s*of\s*Page
#Pattern=<LI><FONT SIZE=-1><a href="([^"]*)">#Country#</a></font>
#End=</[Bb][oO][dD][yY]>
#Source=http://www.odci.gov/cia/publications/factbook/#Link#
#Attribute=Telephone#String
#Begin=Telephones:
#Pattern=</b>\s*([\0-\377]*?)\s*<p>
#End=Telephone system:
#Attribute=Background#String
#Begin=Background:
#Pattern=</b>\s*([\0-\377]*?)\s*<
#End=Location:
#Attribute=Location#String
#Begin=Location:
#Pattern=</b>\s*([\0-\377]*?)\s*<p>
#End=Geographic\s*coordinates:
. . .
8
Expresiones comunes usadas en archivos Spec
*Coincide una o más veces (greedy ).
*?Coincide 0 o más veces (no greedy ).
+Coincide una o más veces (greedy ).
Los cuantificadores greedy, como *, coinciden tanto como sea posible, mientras que los no
greedy se detienen en la más mínima coincidencia. Ejemplo:
?Coincide 0 o 1 vez (greedy ).
<b> hello </b> <i>lovely </i> <b> world </b>
<b>(.*) </b> coincidiría con ‘hello </b> <i>lovely </i> <b> world’ mientras que
<b>(.*?) </b> coincidiría con ‘hello’ y con ‘world’
.coincide con todo excepto con \n
[\0-\377]coincide con todo
^coincide con el inicio de una cadena o de una línea
[^ un carácter] coincide con todo salvo con el carácter especificado.
Por ejemplo [^<] coincide con todo excepto con <
$coincide con el final de una cadena o de una línea
\scoincide con un carácter de espaciado
\Scoincide con un carácter que no sea de espaciado
\dcoincide con un dígito
Las expresiones entre paréntesis se guardan.
9
Aplicación de ejemplo
Analista de investigación
o
comerciante
Movimiento manual de datos
Hoja de datos
Aplicación de texto
WWW
Aplicación heredada
10
Suministro de datos integrados y
análisis
Precio participaciones -TIBCO
Datos en tiempo real
Archivos SEC -EDGAR
Basado en Web -Internet
Noticias -Reuters, Newswire y
Businesswire
Basado en Web -Internet
Informes de investigación de Merrill
Basados en texto - Intranet de Merrill
Actualización de mercados -página de inicio
de Merrill Lynch
Basado en Web -Internet
11
Interfaz de hoja de datos
12
XML – ¿La bala de plata?
• XML es (según informes de prensa …)
“HTML con esteroides”
“La piedra Rosetta”
“Una forma universal de traducir datos”
“Una forma milagrosa para” … integrar información
“La bala de plata”
13
XML: ¿qué es?
•XML -Lenguaje de M arcado eXtensible
•Metalenguaje para definir un lenguaje de marcado
•Basado en SGML -
•Modelo de datos para sintaxis de estructura de datos
• Puede definir etiquetas a su gusto
• Puede anidar estructuras de documentos en niveles arbitrarios
Lenguaje de marcado generalizado estándar
de complejidad
• Puede usar definiciones de tipo de documento (DTD)
•Cuenta con muchos miembros más en la “familia”:
– XSL, XSLT, XLL, XML-Query, etc.
14
XML ayuda a crear páginas Web estructuradas
HTML
XML
Conj. ampliable de etiq.
Contenido
Múltiple (XSL)
Documentos + datos
semiestructurados
Pal. clave + consulta
depend. del campo
15
Función
Extensibilidad
Prop. etiqueta
Vistas
Orientación
Conj. fijo etiquetas
Presentación
Única
Documentos
Búsqueda
Plabra clave
Ejemplo: HTML comparado con XML
HTML *
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
<html>
<head> . . .
<BODY topmargin=18 leftmargin=6 bgcolor="#ffffff" link="#0000ee" VLINK="#551A8B" ALINK="#ff0000">
<pre><font size=2>
RegularOur
Price
329.00
Price
236.00
In stock
Palm Pilot V
</font></pre>
<table cellpadding=0 cellspacing=0 border=0>
<tr><td align=left valign=middle width=455 nowrap height=20>
<tr><td align=left valign=top nowrap width=455>
<font size=1 face="helvetica,arial"> . . .
</BODY>
</HTML>
XML
<XML>
<Product info>
* El HTML suele ser más confuso, <Product> Palm Pilot V <\Product>
con más detalles de formato y etiquetas <tr>
y <td> para definir las tablas y las
posiciones de las tablas.
<Regular price> 329.00 <\Regular price>
<Our price> 236.00 <\Our price>
<InStock> yes <\InStock>
<\Product info>
<\XML>
16
XML: ¿por qué es necesario?
•El W3C quería separarse de la creación de etiquetas
•Separa los datos de la presentación
–Usa hojas de estilos y no formato HTML “duro”
–Flexibilidad/escalabilidad/extensibilidad
Página XML
Explorador Netscape (predet.)
Explorador/aplicación personalizados
•También es importante para aplic. inalámbricas (WML/XHTML)
• Contenido comprensible para el ser humano
•Procesable por los equipos
•Intercambio de información 17
Aplicaciones de ejemplo de datos Web semiestructurados
• Extracción automática de datos de sitios Web concretos para herramientas de
usuario como Excel o consolidadores/exploradores Web propios
Fidelity
Bank of Boston
Fidelity
500
Bank of Boston
750
Total
1250
500
750
Cuentas (sitios Web)
•Seleccionar y consolidar la información en los sitios Web
Evaluaciones de IBM
Analista Evaluación
A
.0
5
B
4
.2
Empresa: IBM
Evaluación: 5.0
Empresa: IBM
Evaluación: 4.2
A
B
Informes de analistas (fuentes Web)
• Integrar redes de Internet/Intranet/cliente-servidor para funcionamiento interno
Envíos de
ayer
(B. datos interna)
Informe de envíos
no enviados antes
del mediodía de hoy
Programa
de estado
de envíos
FedEx(seguimiento de
paquetes)
(Sitio Web)
UPS(seguimiento de
paquetes)
(Sitio Web)
18
XML. . . Varios estándares
•Lo mejor de los estándares de XML es que
hay tantos...
•¿La etiqueta del catálogo debería llamarse “precio” o “coste” ?
•“ El director de comercio electrónico de Credit Suisse First
Boston y el presidente del grupo de trabajo XML de los servicios
financieros deben ajustarse a más de diez protocolos XML
… para sus aplicaciones de comercio financiero”. (ComputerWorld,
9 de julio de 2001)
19
XML – ¿La bala de plata?
• XML no es:
“Una piedra Rosetta”
“Una forma universal de traducir datos”
“Una forma milagrosa de” … integrar información
“Una bala de plata”
•Es una herramienta muy útil para integrar información. . .
•Algunas fuentes que lo respaldan: w3c.org/XML y XML.org
• Aún son muchas las necesidades de la integración de información
El intercambio de contexto y la búsqueda Web semántica
son las futuras promesas . . .
20
Resumen
• Tim Berners-Lee, director del W3C:
-"La Web se convierte rápidamente en el depósito de datos
creciente más veloz del mundo”
• En el pasado: fundamentalmente procesado por humanos.
• En el futuro: debe poder ser procesado por programas (agentes
o humanos)
• Herramientas: el empaquetador Web automático del MIT y XML del W3C
ya ofre
Comentarios de: Clase 17 - La web como base de datos: Evolución de XML (0)
No hay comentarios