PDF de programación - DATA MINING

Volver

Filtrado por el tag: MySQL

<<>>

DATA MINING

Publicado el 3 de Mayo del 2017

965 visualizaciones desde el 3 de Mayo del 2017

1,2 MB

38 paginas

Creado hace 26a (01/07/2000)

'$7$0,1,1*

Francisco J. Ferrer

Jesús Aguilar
Joaquín Peña

Departamento de Lenguajes y Sistemas Informáticos

Facultad de Informática
Universidad de Sevilla

INFORME TÉCNICO: LSI-2000-08

Julio, 2000

,1',&(*(1(5$/

1. Introducción Pág. 3

2. KDD y Data Mining Pág. 5

3. Sistemas Data Warehousing y Data Marts Pág. 28

4. Referencias Pág. 36

Conocimiento y Minería de Datos

,QWURGXFFLyQ

Según [1] se estima que cada 20 meses se duplica la información en todo el mundo. La
6RFLHGDGGHOD,QIRUPDFLyQ destina gran cantidad de recursos en adquirir, almacenar y procesar
enormes cantidades de información de muy diversa índole (financiera, comercial, industrial,
científica, publicitaria, etc.) y todo ello a un ritmo que se acelera diariamente debido al constante
desarrollo tecnológico donde ,QWHUQHW, base de datos dinámica y creciente llamada a ser la
principal fuente de extracción de información, es sólo el pico visible del iceberg.

Hoy en día las grandes organizaciones se administran con el apoyo de sistemas de gestión
que manejan terabytes de información, una información que oculta FRQRFLPLHQWRen forma de
reglas, asociaciones, excepciones o patrones, todos ellos de gran valor en la toma de decisiones
de negocio. Frente a las respuestas proporcionadas por los tradicionales sistemas de gestión de
bases de datos (³¢&XiOHV IXHURQ ODV YHQWDV HQ HO WHUFHU WULPHVWUH HQ OD UHJLyQ QRUWH"´)
aparecieron las herramientas de análisis multidimensional (también llamadas OLAP, On-Line
Analytical Processing) que permiten realizar consultas mucho mas complejas (³¢4XpYHQWDVVH
SUHYHHQHQHOWHUFHUWULPHVWUHGHODxRSUy[LPRHQODUHJLyQQRUWH"´) y donde el tiempo aparece
como una de las variables principales. Sin embargo, en ambos casos los valores obtenidos
siguen derivando de los datos existentes.

Figura 1. Diagrama del proceso OLAP.

3

Conocimiento y Minería de Datos

El fuerte análisis estadístico sobre el que operan estas últimas consultas proporciona
métodos para la búsqueda de correlaciones y dependencias entre los datos. Y mediante
herramientas de visualización (a veces XQD LPDJHQ GLFH PiV TXH PLO SDODEUDV) se identifican
fácilmente tendencias en el tiempo entre varias medidas de un fenómeno. Pero no parece nada
claro que las habilidades de un experto puedan con igual eficiencia analizar trillones de datos
almacenados en soporte informático e inducir patrones desconocidos, en un momento en el que
la diferencia entre la cantidad de datos manejados y el conocimiento que se tiene de los mismos
aumenta continuamente. El interés está en ³¢&yPRDXPHQWDUODVYHQWDVHQHOWHUFHUWULPHVWUHHQ
ODUHJLyQQRUWH"´

A finales de la década de los 80, la creciente necesidad de automatizar todo este
proceso inductivo abre una línea de investigación para el análisis inteligente de datos. De las
similitudes entre buscar valiosa información de negocio en grandes bases de datos y minar una
montaña para encontrar una veta de metales valiosos, el conjunto de métodos matemáticos y
técnicas software para análisis inteligente de datos y búsqueda de regularidades y tendencias
en los mismos, aplicados de forma iterativa e interactiva, se denominaron técnicas de
0LQHUtDGH'DWRV o 'DWD0LQLQJ.

4

Conocimiento y Minería de Datos

.''\'DWD0LQLQJ

Desde hace más de dos décadas se vienen desarrollando y utilizando complejos algoritmos
para la extracción de patrones útiles en grandes conjuntos de datos. Unos de los pioneros en ello
fue la administración de hacienda estadounidense que, mediante lógica difusa, redes neuronales
y reconocimiento de patrones, ha intentado detectar fraudes en la declaración y evasión de
impuestos [2].

Sin embargo durante todo este tiempo, las técnicas aplicadas fueron en su mayor parte
dominio de las administraciones públicas. El elevado coste asociado y los enormes requisitos de
almacenamiento, tiempo y memoria limitaron en gran medida el enorme campo de aplicación
actual. Esta escasa difusión generó diversas nombres para una misma disciplina: NQRZOHGJH
H[WUDFWLRQ LQIRUPDWLRQ GHVFRYHU\ LQIRUPDWLRQ KDUYHVWLQJ GDWD DUFKDHRORJ\ VLIWZDUH GDWD
GUHGJLQJGDWDSDWWHUQSURFHVVLQJy'DWD0LQLQJ. Hoy en día el hardware ha dejado de ser el
problema.

Los grandes avances en las tecnologías de la información han provocado un aumento sin
precedentes del volumen y el flujo de datos. Códigos de barra, tarjetas electrónicas, sensores
remotos, transacciones bancarias, satélites espaciales o el reciente proyecto de cooperación
internacional para descifrar el código genético humano son ejemplos de la necesidad de filtrar,
analizar e interpretar volúmenes de datos que se miden en terabytes.

Consolidación.

Marketing dirigido, modelos de financiación, bonos del estado, control de calidad, la
industria del petróleo, banca, biología molecular, prevención de incendios forestales,
criminología, diagnósticos médicos, etc. El amplio campo de actuación del que ya disfrutan las
herramientas de la Minería de Datos frente a su relativa novedad hace ver áreas problemáticas
rápidamente. Los factores principales en la consolidación de las técnicas de la minería de datos
como herramienta principal en la toma de decisiones de negocio son:

1. (O VRUSUHQGHQWH GHVDUUROOR WHFQROyJLFR XQLGR D ORV FRVWHV GH SURGXFFLyQ \
FRPHUFLDOL]DFLyQ. Los avances alcanzados en el procesamiento paralelo (sin duda factor
clave) junto con la capacidad de los dispositivos de almacenamiento, permiten hoy día la
aplicación a grandes bases de datos de métodos computacionalmente muy complejos en
poco tiempo, algo impensable hace 20 años. En [3] se describe un ejemplo muy
significativo: el %DQFR GH $PpULFD gastaba 2430 dólares por una consulta sobre 15
gigabytes en el año 1985; en 1995 gastaba 24 dólares por una consulta de 800 gigabytes.
Según [4] el almacenamiento de un terabyte de información costaría hace 5 años 10
millones de dólares, hoy en día no llega al millón de dólares.

2. (O DXPHQWR HQ OD IUHFXHQFLD \ FDQWLGDG HQ DGTXLVLFLyQ GH GDWRV. Se estima que
actualmente un satélite produce 50 gigabytes por hora [5]. Este ejemplo señala el enorme
crecimiento en el trafico de datos, causa no solo del abaratamiento de los sistemas de
almacenamiento masivo, sino también de la automatización de muchos experimentos y
técnicas de recogida de datos.

5

Conocimiento y Minería de Datos

3. Intensa y creciente competencia en un comercio saturado. El comercio electrónico es ya
una realidad en Estados Unidos. Grandes compañías han visto crecer y aumentar sus
puntos de venta como nunca, pudiendo llegar a mercados antes no previstos. Las
campañas publicitarias a través del correo electrónico garantizan que el cliente recibe la
información y reduce costes implícitos en la publicidad tradicional.

4. &RQVROLGDFLyQ GH OD WHFQRORJtD SDUD HO GHVDUUROOR GH VLVWHPDV GH JHVWLyQ GH OD

LQIRUPDFLyQ

Definición.

Dos términos empleados erróneamente sinónimos son KDD y 'DWD0LQLQJ. Según [1] se
denomina 0LQHUtD GH 'DWRV al conjunto de técnicas y herramientas aplicadas al proceso no
trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente
útil y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de:

3UHGHFLUGHIRUPDDXWRPDWL]DGDWHQGHQFLDV\FRPSRUWDPLHQWRV
'HVFULELUGHIRUPDDXWRPDWL]DGDPRGHORVSUHYLDPHQWHGHVFRQRFLGRV

.'' (.QRZOHGJH 'LVFRYHU\ LQ 'DWDEDVHV, 'HVFXEULPLHQWR GH &RQRFLPLHQWR HQ %DVHV
GH'DWRV) debe referirse al amplio proceso de búsqueda de un alto nivel de conocimiento a partir
de datos a un bajo nivel, con la aplicación de los métodos específicos de 0LQHUtD GH 'DWRV
como uno de los pasos más importantes en todo el proceso global.

.'' supone la convergencia de distintas disciplinas de investigación, fundamentalmente:
Aprendizaje Automático, Estadística, Reconocimiento de Patrones, Inteligencia Artificial,
Sistemas de Gestión de Bases de Datos, Técnicas de Visualización de Datos, los Sistemas para
el Apoyo a la Toma de Decisiones, la Recuperación de Información.

Así, mientras que el término 'DWD0LQLQJ suele utilizarse por estadísticos, analistas de datos y
la comunidad de sistemas de gestión de la información (MIS), .'' (formalizado en un
encuentro celebrado en 1989 [1]) es aplicado a las disciplinas de la ,QWHOLJHQFLD$UWLILFLDO\HO
$SUHQGL]DMH$XWRPiWLFR que tratan la extracción de conocimiento en grandes bases de datos,
donde:

Dado un conjunto de hechos (datos) H, un lenguaje L y alguna medida de la
certeza C, definimos una regularidad o patrón S (pattern) como una sentencia en L que
describe relaciones dentro de un subconjunto Hs de H con una certidumbre c, de forma que
6HVPiVVHQFLOORTXHO