PDF de programación - Minería de Datos

Imágen de pdf Minería de Datos

Minería de Datosgráfica de visualizaciones

Publicado el 26 de Agosto del 2017
2.138 visualizaciones desde el 26 de Agosto del 2017
1,1 MB
53 paginas
Creado hace 15a (22/06/2008)
Minería de Datos

Vallejos, Sofia

Contenido

I t d
Introducción:



• Inteligencia de negocios (Business Intelligence).

• Componentes
• Descubrimiento de conocimiento en bases de datos (KDD)
Descubrimiento de conocimiento en bases de datos (KDD).

Minería de Datos:

• Perspectiva histórica.
• Fases de un Proyecto
• Fases de un Proyecto.
• Fuentes de datos.
• Funciones de minería.
• Modelos típicos de minería.

Ejemplos:

• Clustering.
• Asociación.
• Red neuronal como modelo predictivo.

Web Mining.

Conclusiones.

Vallejos, Sofia

Inteligencia de Negocios

g

g

Hace referencia a un conjunto de productos y servicios
Hace referencia a un conjunto de productos y servicios
para acceder a los datos, analizarlos y convertirlos en

información.

“ Es un paraguas bajo el que se incluye un conjunto de
conceptos y metodologías cuya misión consiste en
mejorar el proceso de toma de decisiones en los

negocios basándose en hechos y sistemas que trabajan

p

y

g

y

con hechos.”

Howard Dresner

Gartner Group, 1989.
Gartner Group, 989.

Vallejos, Sofia

Inteligencia de Negocios

Componentes
Componentes

Multidimensionalidad.

Agentes.

Data Warehouse.

Data Mining.

Vallejos, Sofia

Descubrimiento de
i

C
Conocimiento en Bases de Datos

d D t

t

B

i

Es un proceso de extracción no trivial para identificar
patrones que sean válidos, novedosos, potencialmente
p

, p

q

,

útiles y entendibles, a partir de los datos.



Su objetivo principal: procesar automáticamente

grandes cantidades de datos para encontrar
r u
n m n

conocimiento útil para un usuario y satisfacer sus

p r un u u r

l

y

ú

á

f

metas.

Vallejos, Sofia

Descubrimiento de
d

Conocimiento en Bases de Datos



Jerarquía
Jerarquía

Vallejos, Sofia

Descubrimiento de
i

C
Conocimiento en Bases de Datos

d D t

i

t

B

Et
d KDD
Etapas de KDD

Vallejos, Sofia

Qué es Minería

de Datos
de Datos

Es el proceso de exploración y análisis – de manera


E l
automática o semiautomática – de los datos para
obtener patrones significativos y reglas de negocio.

áli i d



l

g

d

p

y

g

g

Consideraciones:

• Los patrones deben ser significativos.
• Sin automatización es imposible mirar grandes cantidades

de datos, pero se debe dar más énfasis a las etapas de
p
exploración y análisis, que al modo de exploración.

p

• Data Mining es un proceso.

Vallejos, Sofia

Qué es Minería

de Datos
de Datos

La MD puede ser dividida en:

di idid

L MD

d

• Minería de datos predictiva (mdp): usa
• Minería de datos predictiva (mdp): usa
primordialmente técnicas estadísticas.

• Minería de datos para el descubrimiento de

conocimiento (mddc): usa principalmente técnicas
de inteligencia artificial
de inteligencia artificial.

Vallejos, Sofia

Qué no es Minería

de Datos
de Datos

No es un producto que se compra enlatado sino una

q

disciplina que debe ser dominada.

p

No es una solución instantánea a los problemas de

negocio.

No es un fin en sí mismo sino un proceso que ayuda a
No es un fin en sí mismo, sino un proceso que ayuda a

encontrar soluciones a problemas de negocio.

Vallejos, Sofia

Minería de Datos:

Perspectiva histórica
Perspectiva histórica

Vallejos, Sofia

Fases de un Proyecto de

Minería de Datos
Minería de Datos

El proceso de minería de datos pasa por las

si uientes f ses:
siguientes fases:

• Filtrado de datos.
• Selección de Variables
Selección de Variables.
• Extracción de Conocimiento.
• Interpretación y Evaluación.

p

y

Vallejos, Sofia

Fases de un Proyecto de DM:

Filtrado de datos
Filtrado de datos

Mediante el preprocesado, se filtran los datos

• Se eliminan valores incorrectos no válidos desconocidos
• Se eliminan valores incorrectos, no válidos, desconocidos...

según las necesidades y el algoritmo a usar).

• Se obtienen muestras de los mismos (en busca de una mayor

velocidad de respuesta del proceso)
velocidad de respuesta del proceso).

• Se reducen el número de valores posibles (mediante

redondeo, clustering,...).

Vallejos, Sofia

Fases de un Proyecto de DM:
Selección de Variables
Selección de Variables

Los métodos para la selección de características son
Los métodos para la selección de características son

básicamente dos:

Aquellos basados en la elección de los mejores atributos del
• Aquellos basados en la elección de los mejores atributos del
problema.

• Y aquellos que buscan variables independientes mediante
tests de sensibilidad algoritmos de distancia o heurísticos
tests de sensibilidad, algoritmos de distancia o heurísticos.

Vallejos, Sofia

Fases de un Proyecto de DM:

Extracción de Conocimiento
Extracción de Conocimiento

Mediante una técnica de minería de datos:
p

• Se obtiene un modelo de conocimiento, que representa

patrones de comportamiento observados en los valores de
las variables del problema o relaciones de asociación entre
dichas variables.

, q

Vallejos, Sofia

Fases de un Proyecto de DM:

Interpretación y Evaluación
Interpretación y Evaluación

Se debe proceder a su validación, comprobando que

las conclusiones que arroja son válidas y
suficientemente satisfactorias.
suf c entemente sat sfactor as.

Si ninguno de los modelos alcanza los resultados

esperados, debe alterarse alguno de los pasos
anteriores para generar nuevos modelos
anteriores para generar nuevos modelos.

Vallejos, Sofia

Integrantes del proyecto

p y

g

Vallejos, Sofia

El analista de datos

Es el vínculo entre las áreas de tecnología informática y las áreas

de negocio.

Habilidades requeridas:

• Manipulación de datos (SQL).
• Conocimiento de técnicas de minería y análisis exploratorio.
• Habilidad de comunicación (interpretación) de los problemas de

p

negocio.

y

Vallejos, Sofia

El analista de datos

Traduce los requerimientos de información en preguntas

apropiadas para su análisis con las herramientas de minería.

í

á

Vallejos, Sofia

Fuentes de Datos

Tipos de fuentes:

p
• Transaccionales: Ej. operaciones realizadas con una tarjeta

de crédito.

banco.

j

• Relaciónales: Ej. estructura de productos que ofrece un

p

q

• Demográficos: Ej. características del grupo familiar.

Origen de datos:

• Bases de datos relacionales.
• DataWarehouses
• DataWarehouses.
• Data Marts.
• Otros formatos: Excel, Access, encuestas, archivos planos.

Vallejos, Sofia

Calidad de los Datos
El éxito de las actividades de Data Mining se

relaciona directamente con la CALIDAD de los datos
relaciona directamente con la CALIDAD de los datos.

Muchas veces resulta necesario pre-procesar los
d
datos, antes de derivarlos al modelo de análisis.


d l d

d d

l

ál



l

El preproceso puede incluir transformaciones
El preproceso puede incluir transformaciones,

reducciones o combinaciones de los datos.

L

La semántica de los datos debe ayudar para

d b

d l

d

á i

d

seleccionar una conveniente representación, dado
que influye directamente sobre la calidad del modelo.

Vallejos, Sofia

Funciones de minería

Utilizan técnicas matemáticas elaboradas para


d
descubrir patrones ocultos en los datos. Ellas son:

Ell

b



l



l

d

g

g

• Asociación.
• Clasificación neuronal.
• Clasificación en árbol.
• Clustering demográfico.
• Clustering neuronal.
• Patrones secuenciales.
• Secuencias semejantes
• Secuencias semejantes.
• Predicción neuronal.
• Predicción - función base radial.

Vallejos, Sofia

Modelos típicos de

minería
minería

Clustering.
Clustering.

Clasificación.

Estimación.

Predicción.

Agrupamiento a partir de reglas de asociación.

Vallejos, Sofia

Modelos típicos de minería:

Clustering
Clustering

Agrupar a los clientes según indicadores F
Agrupar a los clientes según indicadores F

(frecuencia), M (monto), etc en segmentos de
comportamientos homogéneos.

Resultado: Clientes Buenos, Medios, Malos.

El 78% de la facturación se concentra en el cluster
El 78% de la facturación se concentra en el cluster

Buenos.

L li

Los clientes Buenos son casados, con hijos,

hij

B

t

trabajadores autónomos con ingreso superior a
$3000 pesos.

p



d



Vallejos, Sofia

Modelos típicos de minería:

Clasificación y Estimación
Clasificación y Estimación

Clasificar un nuevo cliente – de acuerdo a su perfil

sociodemográfico – como un cliente:

g

• Bueno.
• Medio.
• Malo.

l

E i
i d b d
Estimar el consumo de un determinado rubro de
artículos de un grupo de clientes en el próximo
trimestre.

d

d

Vallejos, Sofia

Modelos típicos de minería:

Predicción
Predicción

Predecir el abandono de un cliente:

• Para una compañía de telefonía celular.
• Para una AFJP.
• Para una tarjeta de crédito.

Vallejos, Sofia

Modelos típicos de minería:

Asociación
Asociación

Encontrar las reglas que determinan la interrelación

entre productos para clientes de un banco. Por
p
ejemplo:

p



l



“ Cuando un cliente se activa en Caja de Ahorros, el
l
siguiente producto donde se activa es Préstamos
Personales. Este patrón ocurre el 65 % de los
r n
casos. ”

p r n

h

urr



6



. E

Vallejos, Sofia

Elección del modelo

Principales objetivos del proceso de Data Mining:

• Predicción.
• Descripción.



El método a utilizar depende de los objetivos


El é
perseguidos por el análisis pero también de la calidad
y cantidad de los datos disponibles.
y
.

p n



l



l



n

Vallejos, Sofia
  • Links de descarga
http://lwp-l.com/pdf6615

Comentarios de: Minería de Datos (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad