PDF de programación - MINERIA DE DATOS Y Descubrimiento del Conocimiento

Imágen de pdf MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimientográfica de visualizaciones

Publicado el 27 de Agosto del 2017
827 visualizaciones desde el 27 de Agosto del 2017
1,3 MB
60 paginas
Creado hace 12a (10/06/2011)
MINERIA DE DATOS Y

Descubrimiento del Conocimiento

UNA APLICACIÓN EN DATOS AGROPECUARIOS

INTA EEA Corrientes

Maximiliano Silva

La información

• Herramienta estratégica

para el desarrollo de:
– Sociedad de la

información.

– Economía cuya base

es el conocimiento.

Problemática

• Incremento en dos sentidos en

Bases de Datos:
– Número N de registros u objetos.
– Número D de campos u atributos

por objeto.

• Crecimiento BD (tamaño y

número)
– Supera a las habilidades humanas

para analizar.

– Necesidad y oportunidad de

extraer conocimiento.

Descubrimiento de Conocimiento en

Bases de Datos (KDD)

• Descubrimiento del conocimiento

en Base de Datos :
– KDD:

Knowledge

Database. 1989.

Discovery

in

Estadística

Artificial / Machine

Inteligencia

Learning

• El método tradicional de convertir

datos en conocimiento:
– análisis e interpretación manual.
– lento, costoso y altamente subjetivo .
– volúmenes
crecen

datos

de

exponencialmente.

Data
Mining

Informática

Bases de Datos

KDD

• “El proceso no trivial de identificar patrones
válidos, nuevos, potencialmente útiles y en
ultima instancia comprensible en los datos”

Usama Fayyad 1996

Minería de Datos (DM)

• Minería de Datos: Data Minig – DM.
• Es la aplicación de algoritmos específicos para

extraer patrones desde los datos

KDD: Pasos adicionales

• Selección
• Limpieza .
• Reducción.
• Interpretación.
• Uso del conocimiento.

Aplicaciones del Data Mining

• Aspectos climatológicos: predicción de tormentas,

etc.

• Medicina: encontrar

la probabilidad de una

respuesta satisfactoria a un tratamiento médico.

• Mercadotécnia: identificar clientes susceptibles de
responder a ofertas de productos y servicios por
correo, fidelidad de clientes, afinidad de productos,
etc.

• Inversión en casas de bolsa y banca: análisis de
clientes, aprobación de prestamos, determinación
de montos de crédito.

• Detección de fraudes y comportamientos inusuales:
telefónicos, seguros, en tarjetas de crédito, evasión
fiscal, electricidad, etc.

• Análisis de canastas de mercado para mejorar la
organización de tiendas, segmentación de mercado
(clustering).

• Deporte

determinar

profesional:

puntos,
expulsiones/tarjetas que tiene cada jugador, tomar
mejores decisiones para siguientes temporadas.

Algoritmos de Minería de Datos
• Supervisados o predictivos:

– Dado un conjunto de variables predictoras, se desea
conocer el comportamiento de la variable a predecir.
Predicen el valor de un atributo de un conjunto de
datos, conocidos otros atributos.

– Una vez entrenado el modelo, sirve para realizar la

predicción de datos cuyo valor es desconocida.

Variables Predictoras

Variable a
predecir

Algoritmos de Minería de Datos
• No supervisados:

– Descubren patrones y tendencias en los datos, que

no poseen variable a predecir.

– Agrupar registros por similaridad.
– Descubrimiento de conocimiento: tomar acciones
y obtener un beneficio (científico o de negocio) de
ellas.

Árbol de Decisión

• Herramienta potentísima de clasificación.
Construyen un árbol del que se pueden
extraer reglas.

• Validaciones. Detectar elementos anómalos
en función de si encajan o no con las reglas
surgidas del árbol.

• Predecir el valor de un atributo con precisión,
encontrando correlaciones entre las variables
predictoras y la variable a predecir.

Ejemplo:

Redes neuronales

• Se basan en la analogía que existe en el
comportamiento y función del cerebro humano, en
particular del sistema nervioso.
– Aprende variando el peso sináptico.

Neurona
Biológica

Modelo

Matemático
de la Neurona

Biológica

Redes neuronales

• Aprenden a través del entrenamiento.
• Objetivo: balance entre

– Habilidad para responder correctamente en relación a la
el

patrones

usado

para

entrada
entrenamiento .

de

es

decir

– Habilidad de dar una respuesta (buena) razonable para la

entrada que es similar.

• El entrenamiento de la red por backpropagation implica tres



etapas:
Feedforward (red de alimentación hacia adelante) del
entrenamiento de patrones de entrada.

• Backpropagation del error asociado y
• El ajuste de los pesos.

Agrupamiento (Clustering)

• Es una técnica cuya idea básica es agrupar un
conjunto de observaciones en un número
dado de clusters o grupos. Este agrupamiento
se basa en la idea de distancia o similitud
entre las observaciones.

• La idea es que los elementos en un grupo sean
similares y en grupos diferentes tengan la
menor similitud posible.

Clustering

1000 clientes
en una BD

K-medias

• El algoritmo de las K-medias es un algoritmo
de partición. Básicamente este algoritmo
busca formar clusters (grupos) los cuales serán
representados por K objetos (centroides)

• La cantidad de K es un valor ingresado por el

usuario.

• Utiliza la noción de centroide.
• Cada uno de estos centroide es el valor medio

de los objetos que pertenecen a dicho grupo.

• Es un algoritmo iterativo por naturaleza.

Ejemplo

Distancia de Manhattan

D(p1,c1)= |2-3| + |4-5| = 2
D(p1,c2)= |2-6| + |4-2| = 6

Centroide 1
(c1)

Centroide 2
(c2)

Algoritmo Jerárquico

• El primer paso es calcular las distancias entre
todos los pares de objetos. Esto es lo mismo
que asumir que cada objeto constituye un
cluster: {C1, ...,CN}.

• Se buscan los dos clusters más cercanos
(Ci, Cj), éstos se juntan y constituyen uno solo
Cij.

• Se repite el paso 2 hasta que no quedan

pares de comparación.

• Para clasificar los elementos en clusters,
este algoritmo tiene dos variantes que
pueden ser:
– Acumulativos: se forman

grupos haciendo

clusters cada vez más grandes.

– Disminutivos: partiendo de un solo grupo se
separan los elementos en clusters cada vez
más pequeños.

• Entre

los

algoritmos

jerárquicos
siguientes

acumulativos destacan los
métodos:
– Método de las distancias mínimas: se busca
la mayor semejanza entre los elementos o
grupos más cercanos.

– Método de las distancias máximas: se calcula
la mínima distancia entre los elementos más
alejados.

– Método de las distancias medias: se calcula

la media de las distancias entre elementos.

Ejemplo con mínima distancia

Dendograma

Ejemplo de aplicación

• Utilización del algoritmo k- medias para
clasificación de sistemas productivos en una
provincia Argentina.

• Software utilizado: SPSS Clementine.
• Dimensiones del conjunto de datos:

– Más de 9000 registros.
– Más de 400 variables (atributos).

• Preprocesamiento y transformación de datos:

– Reducción de cantidad de variables a 40.

Aclaración:

los tipos de cultivos y bovinos son
nombrados en forma genérica debido a que el
resultado del proceso de Minería de Datos se
encuentra en etapa de interpretación y el mismo
no ha sido publicado.

Minería de Datos y Grid Computing
• Como los datos día a día crecen

en
las
dimensiones
computadoras
son muy
limitadas para ofrecer un buen rendimiento a
los procesos de minería.

descomunales,
convencionales

• Una posible solución es la Computación Grid,
la cual busca solucionar problemas que no
pueden ser resueltos en un tiempo razonable
con computadoras convencionales, mediante
el uso de diferentes procesadores
y/o
máquinas conectados a una red que se
finalmente se
distribuyen las
obtengan
y
eficientemente.

resultados más

rápida

tareas

y

Conclusión

• La Minería de datos es una herramienta que
permite convertir los datos almacenados en
información valiosa.

• Los campos

en los que se pueden aplicar
estas técnicas son extremadamente variados,
siempre que se disponga de un conjunto de
datos.
• En el

INTA, permitiría crear modelos para

predecir lluvias, rendimiento de cultivos, etc.

Bibliografía

In

in

• Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P.
From data mining to knowledge discovery: An
overview.
Knowledge
Discovery and Data Mining, U. Fayyad, G.
R.
Piatetsky-Shapiro,
Uthurusamy, Eds. AAAI/MIT Press, Cambridge,
Mass., 1996.

Advances

and

P.

Smyth,

• Apuntes proporcionados por la Cátedra.
  • Links de descarga
http://lwp-l.com/pdf6630

Comentarios de: MINERIA DE DATOS Y Descubrimiento del Conocimiento (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad