PDF de programación - Introducción a Data Mining

Imágen de pdf Introducción a Data Mining

Introducción a Data Mininggráfica de visualizaciones

Publicado el 8 de Septiembre del 2018
231 visualizaciones desde el 8 de Septiembre del 2018
599,1 KB
34 paginas
Creado hace 13a (16/02/2006)
Introducción a Data Mining

Data Mining como un conjunto de técnicas estadísticas

No existe una única definición del término Data Mining (DM). Se puede decir que DM

se refiere a un conjunto de métodos estadísticos que proporcionan información (correla-

ciones o patrones) cuando se dispone de muchos datos (de aquí viene el nombre Minería

de Datos). Esta idea de DM lleva a la siguiente estructura de conocimiento:

Datos + Estadística → Información

El símbolo → tiene el siguiente sentido: los datos están bien recogidos y la estadística

bien aplicada.

Según algunos autores, el Data Mining es aquella parte de la estadística (principal-

mente estadística no paramétrica) que se usa para problemas que se presentan actualmente

en Análisis de Datos. Los problemas actuales se diferencian de los clásicos en que el número

de datos a analizar es mucho mayor y, como consecuencia, las técnicas estadísticas clásicas

no pueden ser aplicadas.

Generalmente, el Data Mining es el proceso de analizar datos desde diferentes per-

spectivas con el objetivo de resumir los datos en segmentos de información útiles. Esta

información que puede ser usada para incrementar réditos o beneficios, reducir costos,

etc. El DM permite a los usuarios analizar datos desde diferentes dimensiones o ángulos,

categorizándolos y resumiendo las relaciones identificadas.

Con estas técnicas es posible, a veces, hacer evidente las relaciones ocultas entre suce-

sos. Un ejemplo simple sería averiguar la relación entre la compra de pañales y de cerveza

el sábado por la tarde en los supermercados. Este ejemplo ilustra muy bien la necesidad de

1

conocer el campo de trabajo para aplicar el Data Mining: sólo un especialista que conozca

a su clientela es capaz de interpretar una correlación bruta que permita realizar el retrato

típico de una pareja haciendo sus compras. Encontrar las relaciones causales que llevan a

correlaciones como la anterior puede ser más rápido y sencillo con el Data Mining.

Además el DM permite trabajar con grandes cantidades de observaciones (varios mil-

lones) sin ningún inconveniente. También permite tratar una gran cantidad de variables

predictivas (hasta varios millares). Esto último es de gran utilidad para seleccionar vari-

ables (determinar las más útiles dentro de una gran masa).

Algunas cosas que se puede hacer con el DM

El usuario del DM usualmente busca los siguientes cuatro tipos de relaciones:

(i) Clases: las observaciones se asignan a grupos predeterminados. El proceso de clasi-

ficación consiste en asignar un conjunto de datos a grupos fijados de manera que

se minimice la probabilidad de una clasificación errónea. Por ejemplo, un problema

típico de clasificación es el de dividir una base de datos de bancos en grupos que sean

lo más homogéneos posibles con respecto a variables como posibilidades de crédito

en términos de valores tales como bueno o malo.

(ii) Clusters: se construyen grupos de observaciones similares según un criterio prefija-

do. El proceso de clustering (agrupamiento) consiste en subdividir un conjunto de

datos en grupos mutuamente excluyentes de tal manera que cada miembro de un

grupo esté lo más cercano posible a otro elemento, y grupos diferentes estén lo más

lejos posible entre sí, de modo que la distancia está medida respecto a todas las vari-

ables disponibles. Un típico ejemplo de aplicación de clustering es la clasificación de

segmentos de mercado. Por ejemplo, una empresa quiere introducirse en el mercado

de bebidas alcohólicas, pero antes hace una encuesta de mercado para averiguar si

existen grupos de clientes con costumbres particulares en el consumo de bebidas.

La empresa quiere introducirse en el grupo (si existe) que esté menos servido por la

2

competencia. En este ejemplo no existen grupos de clientes predeterminados

(iii) Asociaciones: las observaciones son usadas para identificar asociaciones entre vari-

ables. La búsqueda de asociaciones es diferente a la búsqueda de relaciones causales.

Las relaciones causales son mucho más difíciles de encontrar que las asociaciones, de-

bido a la presencia de variables no observadas. Las relaciones causales y asociaciones

no son equivalentes: si hay asociaciones no tiene por qué haber causalidad.

(iv) Patrones secuenciales: se trata de identificar patrones de comportamiento y ten-

dencias. Un ejemplo sería intensidades de expresión en microarrays que permiten

distinguir entre diferentes expresiones de genes para individuos con cancer o sin él.

Ejemplos de aplicación del Data Mining

Algunas áreas de aplicación del DM son:

Toma de Decisiones. Ejemplos: banca, finanzas, seguros, marketing, políticas sani-

tarias o demográficas.

Procesos Industriales.

Investigación Científica Ejemplos: medicina, epidemiología, bioinformática, psicología.

Soporte al Diseño de Bases de Datos.

Mejora de Calidad de Datos.

Mejora en el área de empresas de Consulting.

A continuación se indican algunos ejemplos de aplicación del DM.

1. Comercio/Marketing

a) Identificación de patrones de compra de los clientes.

3

b) Búsqueda de asociaciones entre clientes y características demográficas.

c) Predicción de respuesta a campañas de correo.

d) Análisis de cestas de la compra.

2. Banca

a) Detección de patrones de uso fraudulento de tarjetas de crédito.

b) Identificación de clientes leales.

c) Predicción de clientes con probabilidad de cambiar su afiliación.

d) Determinación del gasto de tarjeta de crédito por grupos.

e) Búsqueda de correlaciones entre indicadores financieros.

f ) Identificación de reglas de mercado de valores a partir de históricos.

3. Seguros y Salud Privada

a) Análisis de procedimientos médicos solicitados.

b) Predicción de qué clientes compran nuevas pólizas.

c) Identificación patrones de comportamiento para clientes con riesgo.

d) Identificación de comportamiento fraudulento.

4. Transportes

a) Determinación de la planificación de la distribución entre tiendas.

b) Análisis de patrones de carga.

5. Medicina

a) Identificación de terapias médicas adecuadas para diferentes enfermedades.

b) Asociación de síntomas y clasificación diferencial de patologías.

4

c) Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo

en distintas patologías.

d) Segmentación de pacientes para una atención más adecuada según su grupo.

e) Predicciones temporales de los centros asistenciales para el mejor uso de recur-

sos, consultas, salas y habitaciones.

f ) Estudios epidemiológicos, análisis de rendimientos de campañas de informa-

ción, prevención, sustitución de fármacos, etc.

Ejemplos de éxito en la aplicación del Data Mining

Este coche conduce automáticamente en la autovía.

Utilizas una cámara digital y las imágenes se elaboran para reconocer las líneas blancas.

5

Algunas Técnicas Estadísticas utilizadas en Data Mining

Como en todo procedimiento automático, las predicciones estadísticas de Data Mining

deben ser inspeccionadas por personas familiarizadas con la materia de trabajo, de manera

que comprendan y verifiquen lo que se ha producido.

Hay que encontrar un término medio entre la capacidad explicativa del modelo (clar-

idad) y su poder de predicción. En general, conforme aumenta el poder de predicción del

modelo baja su capacidad de interpretar el fenómeno objeto de estudio. Mientras más

sencilla sea la forma del modelo, más fácil será su comprensión, pero tendrá menor ca-

pacidad para tener en cuenta dependencias sutiles o demasiado variadas (no lineales). Por

ejemplo, los árboles de decisión conducen a modelos de fácil interpretación, pero tienen

un bajo poder predictivo porque las decisiones son tomadas al contestar a preguntas de

tipo binario Si—No. Al contrario, las redes neuronales tienen una gran poder predictivo

(y tienen también la posibilidad de adaptarse a valores bastante indefinidos e incluso

ausentes), pero resulta muy difícil asignar una interpretación a su funcionamiento: seria,

un poco, como si quisiéramos examinar el cerebro de alguien para saber lo que piensa.

6

Sin embargo, una buena herramienta de visualización le da la posibilidad al usuario de

reconstruir el razonamiento de la red neuronal. Según cuál sea el precio a pagar, y una

vez que se haya establecido la confianza en la herramienta establecida, el usuario notará,

la mayoría de las veces, que la pérdida parcial de comprensión será más que compensada

por la calidad de las predicciones.

Ninguno de los modelos estadísticos presentados es nuevo. Los árboles de decisión y

de regresión han sido utilizados en ciencias sociales en los años 60; las bases de reglas

fueron popularizadas durante el auge de los sistemas expertos en los 80 y la evaluación

por puntuación apreciada por los banqueros durante largos decenios. Incluso las redes

neuronales aparecieron ya en los años 40, pero ha sido preciso el desarrollo del poder de

cálculo de estos últimos años para que, por fin, fueran utilizables de manera sencilla.

La mayoría de estos previsores se fabrican, no por cálculo directo partiendo de los datos

como antes, sino a través de métodos tomados del campo de la inteligencia artificial. Las

dos técnicas principales son el aprendizaje (a partir de un modelo cualquiera que se ajusta

progresivamente a la realidad) y la evolución (o vida artificial, un conglomerado de varios

miles de modelos cualquiera son susceptibles de evolucionar de manera competitiva o

darwiniana). Además, todas las herramientas permiten que se determine la importancia de

cada variable para la decisión (distintividad o carácter pertinente). Esto resulta de extrema

utilidad para proceder a la selección de variables. Al haber determinado con precisión

las variables más pertinentes, se podrá optar por retomar el problema con técnicas más

convencionales si ciertas restricciones de explotación lo imponen.

Las técnicas hasta ahora descritas sólo tratan datos numéricos o cualitativos. El mining

surge ante el problema cada ve
  • Links de descarga
http://lwp-l.com/pdf13417

Comentarios de: Introducción a Data Mining (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios
Es necesario revisar y aceptar las políticas de privacidad