PDF de programación - Clase 17 - La web como base de datos: Evolución de XML

Imágen de pdf Clase 17 - La web como base de datos: Evolución de XML

Clase 17 - La web como base de datos: Evolución de XMLgráfica de visualizaciones

Publicado el 6 de Septiembre del 2017
506 visualizaciones desde el 6 de Septiembre del 2017
894,9 KB
21 paginas
Creado hace 20a (22/03/2004)
MASSACHUSETTS INSTITUTE OF TECHNOLOGY

SLOAN SCHOOL OF MANAGEMENT

15.565 Integración de sistemas de información:
Factores tecnológicos, organizativos y estratégicos
15.578 Sistemas de información globales:

Comunicaciones y conectividad en sistemas de información

Primavera 2002
Clase 17

LA WEB COMO BASE DE DATOS:

EVOLUCIÓN DE XML

1

Explorador

“información original”

A

C

B

Sitios Web

Uso tradicional de la Web: para uso humano directo Objetivo:entretenimiento

Programas para:

Mejorar

Empaq. Web y tecnología
de mediador de contexto

A

C

B

Sitios Web

Bases de datos
internas

2

Ejemplos:

Extrae solo información
de tasas hipotecarias

Compara las tasas hipotecarias
ofrecidas por distintas
fuentes

Crea una b. datos acumulativa
de las tasas hipotecarias
a lo largo de un periodo

Analizar

Depósito

Consolidar

Compara tasas acumulativas
con las almacenadas, alerta
de nuevos máximos y mínimos

Informes
de excepción

Procesar

Nuevo uso de la Web: intermediarios de programas Objetivo:productividad

Proyecto de INtercambio de COntexto (COIN) del MIT Sloan
Páginas
Web

PROCESADO
DE SALIDA

Aplica-
ciones

Receptores

Contr. ODBC

Publicación
Web

MEDIACIÓN
CONTEXTO
*Detección
automática
de conflictos
y conversión
-Datos derivados
-Selección fuente
-Atrib. fuente

AGENTES DE
CONFIANZA

PROCESADO
DE ENTRADA
* * Empaquet.
Web
automático
-- Texto semi
estructurado
-- Plan y ejecu-
ción de consulta
de varias fuentes

Fuentes

Bases
de datos

Exploradores

APLICACIONES:Servicios financieros, comercio electró-
nico, visibilidad de activos, visibilidad en tránsito

Ejemplo de datos Web semiestructurados: Archivos SEC de Intel

4

Arquitectura Cameleon

SQL

Datos

Extremo relacional

Planificador
Optimizador
Ejecutor

Aplicación

Salida en el
formato deseado

Consulta SQL sencilla
y formato de salida

Núcleo

Recuperación

Extracción

Gestión de consultas

Registro

Cliente HTTP

Motor de expresiones
comunes

Analizador de archivos Spec

Authentication, S

Web o b. de datos

Archivos Spec

5

Ejemplo de registro de datos de la CIA

http://www.odci.gov/cia/publications/factbook/geos/sn.html

CONSULTA CAMELEON:

Select capital, location, coordinates, totalarea, climate, population, GDP

from CIA while Country="Singapore"
RESULTADOS DE CAMELEON:

Southeastern Asia, islands between Malaysia and Indonesia (Sureste asiático, islas entre Malasia e Indonesia)

Registro 1
CAPITAL

Singapore (Singapur)

LOCATION (UBICACIÓN)

COORDINATES (COORDENADAS)

1 22 N, 103 48 E

TOTALAREA (ÁREA TOTAL)
647.5 sq km (647,5 km cuadrados)

CLIMATE (CLIMA)

tropical; hot, humid, rainy; no pronounced rainy or dry seasons; thunderstorms occur on 40% of all days (67% of days in April)

tropical; cálido, húmedo, lluvioso; sin estaciones claras lluviosas o secas; tormentas en el 40% de los días (67% de los días de abril)

POPULATION (POBLACIÓN)

4,151,264 (July 2000) (4.151.264 (julio de 2000))

GDP (PNB)

$98 billion (1999) (98.000 millones de dólares (1999))

7

Archivo Spec para registro de la CIA (parcial)

#Relation=cia
#Source=http://www.odci.gov/cia/publications/factbook/country.html
#Attribute=Link#String
#Begin=Top\s*of\s*Page
#Pattern=<LI><FONT SIZE=-1><a href="([^"]*)">#Country#</a></font>
#End=</[Bb][oO][dD][yY]>
#Source=http://www.odci.gov/cia/publications/factbook/#Link#
#Attribute=Telephone#String
#Begin=Telephones:
#Pattern=</b>\s*([\0-\377]*?)\s*<p>
#End=Telephone system:
#Attribute=Background#String
#Begin=Background:
#Pattern=</b>\s*([\0-\377]*?)\s*<
#End=Location:
#Attribute=Location#String
#Begin=Location:
#Pattern=</b>\s*([\0-\377]*?)\s*<p>
#End=Geographic\s*coordinates:
. . .

8

Expresiones comunes usadas en archivos Spec
*Coincide una o más veces (greedy ).
*?Coincide 0 o más veces (no greedy ).

+Coincide una o más veces (greedy ).

Los cuantificadores greedy, como *, coinciden tanto como sea posible, mientras que los no
greedy se detienen en la más mínima coincidencia. Ejemplo:

?Coincide 0 o 1 vez (greedy ).

<b> hello </b> <i>lovely </i> <b> world </b>
<b>(.*) </b> coincidiría con ‘hello </b> <i>lovely </i> <b> world’ mientras que
<b>(.*?) </b> coincidiría con ‘hello’ y con ‘world’

.coincide con todo excepto con \n
[\0-\377]coincide con todo



^coincide con el inicio de una cadena o de una línea


[^ un carácter] coincide con todo salvo con el carácter especificado.

Por ejemplo [^<] coincide con todo excepto con <

$coincide con el final de una cadena o de una línea
\scoincide con un carácter de espaciado
\Scoincide con un carácter que no sea de espaciado
\dcoincide con un dígito



Las expresiones entre paréntesis se guardan.

9

Aplicación de ejemplo

Analista de investigación

o

comerciante

Movimiento manual de datos

Hoja de datos

Aplicación de texto

WWW

Aplicación heredada

10

Suministro de datos integrados y

análisis

Precio participaciones -TIBCO
Datos en tiempo real

Archivos SEC -EDGAR
Basado en Web -Internet
Noticias -Reuters, Newswire y

Businesswire
Basado en Web -Internet

Informes de investigación de Merrill
Basados en texto - Intranet de Merrill

Actualización de mercados -página de inicio

de Merrill Lynch

Basado en Web -Internet

11

Interfaz de hoja de datos

12

XML – ¿La bala de plata?

• XML es (según informes de prensa …)

“HTML con esteroides”
“La piedra Rosetta”
“Una forma universal de traducir datos”
“Una forma milagrosa para” … integrar información
“La bala de plata”

13

XML: ¿qué es?

•XML -Lenguaje de M arcado eXtensible
•Metalenguaje para definir un lenguaje de marcado
•Basado en SGML -
•Modelo de datos para sintaxis de estructura de datos
• Puede definir etiquetas a su gusto
• Puede anidar estructuras de documentos en niveles arbitrarios

Lenguaje de marcado generalizado estándar

de complejidad

• Puede usar definiciones de tipo de documento (DTD)
•Cuenta con muchos miembros más en la “familia”:

– XSL, XSLT, XLL, XML-Query, etc.

14

XML ayuda a crear páginas Web estructuradas

HTML

XML

Conj. ampliable de etiq.
Contenido
Múltiple (XSL)
Documentos + datos
semiestructurados
Pal. clave + consulta
depend. del campo

15

Función
Extensibilidad
Prop. etiqueta
Vistas
Orientación

Conj. fijo etiquetas
Presentación
Única
Documentos

Búsqueda

Plabra clave

Ejemplo: HTML comparado con XML

HTML *
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
<html>
<head> . . .
<BODY topmargin=18 leftmargin=6 bgcolor="#ffffff" link="#0000ee" VLINK="#551A8B" ALINK="#ff0000">
<pre><font size=2>

RegularOur
Price
329.00

Price
236.00

In stock

Palm Pilot V

</font></pre>
<table cellpadding=0 cellspacing=0 border=0>
<tr><td align=left valign=middle width=455 nowrap height=20>
<tr><td align=left valign=top nowrap width=455>
<font size=1 face="helvetica,arial"> . . .
</BODY>
</HTML>

XML
<XML>
<Product info>

* El HTML suele ser más confuso, <Product> Palm Pilot V <\Product>

con más detalles de formato y etiquetas <tr>
y <td> para definir las tablas y las
posiciones de las tablas.

<Regular price> 329.00 <\Regular price>
<Our price> 236.00 <\Our price>
<InStock> yes <\InStock>

<\Product info>
<\XML>

16

XML: ¿por qué es necesario?

•El W3C quería separarse de la creación de etiquetas
•Separa los datos de la presentación

–Usa hojas de estilos y no formato HTML “duro”
–Flexibilidad/escalabilidad/extensibilidad

Página XML

Explorador Netscape (predet.)

Explorador/aplicación personalizados

•También es importante para aplic. inalámbricas (WML/XHTML)
• Contenido comprensible para el ser humano
•Procesable por los equipos
•Intercambio de información 17

Aplicaciones de ejemplo de datos Web semiestructurados
• Extracción automática de datos de sitios Web concretos para herramientas de
usuario como Excel o consolidadores/exploradores Web propios

Fidelity

Bank of Boston

Fidelity

500

Bank of Boston

750

Total

1250

500

750

Cuentas (sitios Web)

•Seleccionar y consolidar la información en los sitios Web

Evaluaciones de IBM
Analista Evaluación
A

.0

5

B

4

.2

Empresa: IBM
Evaluación: 5.0

Empresa: IBM
Evaluación: 4.2

A

B

Informes de analistas (fuentes Web)

• Integrar redes de Internet/Intranet/cliente-servidor para funcionamiento interno

Envíos de

ayer

(B. datos interna)

Informe de envíos
no enviados antes
del mediodía de hoy

Programa
de estado
de envíos

FedEx(seguimiento de
paquetes)
(Sitio Web)

UPS(seguimiento de
paquetes)
(Sitio Web)

18

XML. . . Varios estándares

•Lo mejor de los estándares de XML es que

hay tantos...

•¿La etiqueta del catálogo debería llamarse “precio” o “coste” ?

•“ El director de comercio electrónico de Credit Suisse First
Boston y el presidente del grupo de trabajo XML de los servicios
financieros deben ajustarse a más de diez protocolos XML

… para sus aplicaciones de comercio financiero”. (ComputerWorld,

9 de julio de 2001)

19

XML – ¿La bala de plata?

• XML no es:

“Una piedra Rosetta”
“Una forma universal de traducir datos”
“Una forma milagrosa de” … integrar información
“Una bala de plata”

•Es una herramienta muy útil para integrar información. . .
•Algunas fuentes que lo respaldan: w3c.org/XML y XML.org
• Aún son muchas las necesidades de la integración de información

El intercambio de contexto y la búsqueda Web semántica
son las futuras promesas . . .

20

Resumen

• Tim Berners-Lee, director del W3C:

-"La Web se convierte rápidamente en el depósito de datos

creciente más veloz del mundo”

• En el pasado: fundamentalmente procesado por humanos.
• En el futuro: debe poder ser procesado por programas (agentes

o humanos)

• Herramientas: el empaquetador Web automático del MIT y XML del W3C

ya ofre
  • Links de descarga
http://lwp-l.com/pdf6756

Comentarios de: Clase 17 - La web como base de datos: Evolución de XML (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad