PDF de programación - MINERIA DE DATOS Y Descubrimiento del Conocimiento

Volver

Filtrado por el tag: windows ce

<<>>

MINERIA DE DATOS Y Descubrimiento del Conocimiento

Publicado el 27 de Agosto del 2017

1.079 visualizaciones desde el 27 de Agosto del 2017

1,3 MB

60 paginas

Creado hace 15a (10/06/2011)

MINERIA DE DATOS Y

Descubrimiento del Conocimiento

UNA APLICACIÓN EN DATOS AGROPECUARIOS

INTA EEA Corrientes

Maximiliano Silva

La información

• Herramienta estratégica

para el desarrollo de:
– Sociedad de la

información.

– Economía cuya base

es el conocimiento.

Problemática

• Incremento en dos sentidos en

Bases de Datos:
– Número N de registros u objetos.
– Número D de campos u atributos

por objeto.

• Crecimiento BD (tamaño y

número)
– Supera a las habilidades humanas

para analizar.

– Necesidad y oportunidad de

extraer conocimiento.

Descubrimiento de Conocimiento en

Bases de Datos (KDD)

• Descubrimiento del conocimiento

en Base de Datos :
– KDD:

Knowledge

Database. 1989.

Discovery

in

Estadística

Artificial / Machine

Inteligencia

Learning

• El método tradicional de convertir

datos en conocimiento:
– análisis e interpretación manual.
– lento, costoso y altamente subjetivo .
– volúmenes
crecen

datos

de

exponencialmente.

Data
Mining

Informática

Bases de Datos

KDD

• “El proceso no trivial de identificar patrones
válidos, nuevos, potencialmente útiles y en
ultima instancia comprensible en los datos”

Usama Fayyad 1996

Minería de Datos (DM)

• Minería de Datos: Data Minig – DM.
• Es la aplicación de algoritmos específicos para

extraer patrones desde los datos

KDD: Pasos adicionales

• Selección
• Limpieza .
• Reducción.
• Interpretación.
• Uso del conocimiento.

Aplicaciones del Data Mining

• Aspectos climatológicos: predicción de tormentas,

etc.

• Medicina: encontrar

la probabilidad de una

respuesta satisfactoria a un tratamiento médico.

• Mercadotécnia: identificar clientes susceptibles de
responder a ofertas de productos y servicios por
correo, fidelidad de clientes, afinidad de productos,
etc.

• Inversión en casas de bolsa y banca: análisis de
clientes, aprobación de prestamos, determinación
de montos de crédito.

• Detección de fraudes y comportamientos inusuales:
telefónicos, seguros, en tarjetas de crédito, evasión
fiscal, electricidad, etc.

• Análisis de canastas de mercado para mejorar la
organización de tiendas, segmentación de mercado
(clustering).

• Deporte

determinar

profesional:

puntos,
expulsiones/tarjetas que tiene cada jugador, tomar
mejores decisiones para siguientes temporadas.

Algoritmos de Minería de Datos
• Supervisados o predictivos:

– Dado un conjunto de variables predictoras, se desea
conocer el comportamiento de la variable a predecir.
Predicen el valor de un atributo de un conjunto de
datos, conocidos otros atributos.

– Una vez entrenado el modelo, sirve para realizar la

predicción de datos cuyo valor es desconocida.

Variables Predictoras

Variable a
predecir

Algoritmos de Minería de Datos
• No supervisados:

– Descubren patrones y tendencias en los datos, que

no poseen variable a predecir.

– Agrupar registros por similaridad.
– Descubrimiento de conocimiento: tomar acciones
y obtener un beneficio (científico o de negocio) de
ellas.

Árbol de Decisión

• Herramienta potentísima de clasificación.
Construyen un árbol del que se pueden
extraer reglas.

• Validaciones. Detectar elementos anómalos
en función de si encajan o no con las reglas
surgidas del árbol.

• Predecir el valor de un atributo con precisión,
encontrando correlaciones entre las variables
predictoras y la variable a predecir.

Ejemplo:

Redes neuronales

• Se basan en la analogía que existe en el
comportamiento y función del cerebro humano, en
particular del sistema nervioso.
– Aprende variando el peso sináptico.

Neurona
Biológica

Modelo

Matemático
de la Neurona

Biológica

Redes neuronales

• Aprenden a través del entrenamiento.
• Objetivo: balance entre

– Habilidad para responder correctamente en relación a la
el

patrones

usado

para

entrada
entrenamiento .

de

es

decir

– Habilidad de dar una respuesta (buena) razonable para la

entrada que es similar.

• El entrenamiento de la red por backpropagation implica tres

•

etapas:
Feedforward (red de alimentación hacia adelante) del
entrenamiento de patrones de entrada.

• Backpropagation del error asociado y
• El ajuste de los pesos.

Agrupamiento (Clustering)

• Es una técnica cuya idea básica es agrupar un
conjunto de observaciones en un número
dado de clusters o grupos. Este agrupamiento
se basa en la idea de distancia o similitud
entre las observaciones.

• La idea es que los elementos en un grupo sean
similares y en grupos diferentes tengan la
menor similitud posible.

Clustering

1000 clientes
en una BD

K-medias

• El algoritmo de las K-medias es un algoritmo
de partición. Básicamente este algoritmo
busca formar clusters (grupos) los cuales serán
representados por K objetos (centroides)

• La cantidad de K es un valor ingresado por el

usuario.

• Utiliza la noción de centroide.
• Cada uno de estos centroide es el valor medio

de los objetos que pertenecen a dicho grupo.

• Es un algoritmo iterativo por naturaleza.

Ejemplo

Distancia de Manhattan

D(p1,c1)= |2-3| + |4-5| = 2
D(p1,c2)= |2-6| + |4-2| = 6

Centroide 1
(c1)

Centroide 2
(c2)

Algoritmo Jerárquico

• El primer paso es calcular las distancias entre
todos los pares de objetos. Esto es lo mismo
que asumir que cada objeto constituye un
cluster: {C1, ...,CN}.

• Se buscan los dos clusters más cercanos
(Ci, Cj), éstos se juntan y constituyen uno solo
Cij.

• Se repite el paso 2 hasta que no quedan

pares de comparación.

• Para clasificar los elementos en clusters,
este algoritmo tiene dos variantes que
pueden ser:
– Acumulativos: se forman

grupos haciendo

clusters cada vez más grandes.

– Disminutivos: partiendo de un solo grupo se
separan los elementos en clusters cada vez
más pequeños.

• Entre

los

algoritmos

jerárquicos
siguientes

acumulativos destacan los
métodos:
– Método de las distancias mínimas: se busca
la mayor semejanza entre los elementos o
grupos más cercanos.

– Método de las distancias máximas: se calcula
la mínima distancia entre los elementos más
alejados.

– Método de las distancias medias: se calcula

la media de las distancias entre elementos.

Ejemplo con mínima distancia

Dendograma

Ejemplo de aplicación

• Utilización del algoritmo k- medias para
clasificación de sistemas productivos en una
provincia Argentina.

• Software utilizado: SPSS Clementine.
• Dimensiones del conjunto de datos:

– Más de 9000 registros.
– Más de 400 variables (atributos).

• Preprocesamiento y transformación de datos:

– Reducción de cantidad de variables a 40.

Aclaración:

los tipos de cultivos y bovinos son
nombrados en forma genérica debido a que el
resultado del proceso de Minería de Datos se
encuentra en etapa de interpretación y el mismo
no ha sido publicado.

Minería de Datos y Grid Computing
• Como los datos día a día crecen

en
las
dimensiones
computadoras
son muy
limitadas para ofrecer un buen rendimiento a
los procesos de minería.

descomunales,
convencionales

• Una posible solución es la Computación Grid,
la cual busca solucionar problemas que no
pueden ser resueltos en un tiempo razonable
con computadoras convencionales, mediante
el uso de diferentes procesadores
y/o
máquinas conectados a una red que se
finalmente se
distribuyen las
obtengan
y
eficientemente.

resultados más

rápida

tareas

y

Conclusión

• La Minería de datos es una herramienta que
permite convertir los datos almacenados en
información valiosa.

• Los campos

en los que se pueden aplicar
estas técnicas son extremadamente variados,
siempre que se disponga de un conjunto de
datos.
• En el

INTA, permitiría crear modelos para

predecir lluvias, rendimiento de cultivos, etc.

Bibliografía

In

in

• Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P.
From data mining to knowledge discovery: An
overview.
Knowledge
Discovery and Data Mining, U. Fayyad, G.
R.
Piatetsky-Shapiro,
Uthurusamy, Eds. AAAI/MIT Press, Cambridge,
Mass., 1996.

Advances

and

P.

Smyth,

• Apuntes proporcionados por la Cátedra.