PDF de programación - Introducción a Data Mining

Volver

Filtrado por el tag: gnu/linux

<<>>

Introducción a Data Mining

Publicado el 8 de Septiembre del 2018

1.538 visualizaciones desde el 8 de Septiembre del 2018

599,1 KB

34 paginas

Creado hace 20a (16/02/2006)

Introducción a Data Mining

Data Mining como un conjunto de técnicas estadísticas

No existe una única deﬁnición del término Data Mining (DM). Se puede decir que DM

se reﬁere a un conjunto de métodos estadísticos que proporcionan información (correla-

ciones o patrones) cuando se dispone de muchos datos (de aquí viene el nombre Minería

de Datos). Esta idea de DM lleva a la siguiente estructura de conocimiento:

Datos + Estadística → Información

El símbolo → tiene el siguiente sentido: los datos están bien recogidos y la estadística

bien aplicada.

Según algunos autores, el Data Mining es aquella parte de la estadística (principal-

mente estadística no paramétrica) que se usa para problemas que se presentan actualmente

en Análisis de Datos. Los problemas actuales se diferencian de los clásicos en que el número

de datos a analizar es mucho mayor y, como consecuencia, las técnicas estadísticas clásicas

no pueden ser aplicadas.

Generalmente, el Data Mining es el proceso de analizar datos desde diferentes per-

spectivas con el objetivo de resumir los datos en segmentos de información útiles. Esta

información que puede ser usada para incrementar réditos o beneﬁcios, reducir costos,

etc. El DM permite a los usuarios analizar datos desde diferentes dimensiones o ángulos,

categorizándolos y resumiendo las relaciones identiﬁcadas.

Con estas técnicas es posible, a veces, hacer evidente las relaciones ocultas entre suce-

sos. Un ejemplo simple sería averiguar la relación entre la compra de pañales y de cerveza

el sábado por la tarde en los supermercados. Este ejemplo ilustra muy bien la necesidad de

1

conocer el campo de trabajo para aplicar el Data Mining: sólo un especialista que conozca

a su clientela es capaz de interpretar una correlación bruta que permita realizar el retrato

típico de una pareja haciendo sus compras. Encontrar las relaciones causales que llevan a

correlaciones como la anterior puede ser más rápido y sencillo con el Data Mining.

Además el DM permite trabajar con grandes cantidades de observaciones (varios mil-

lones) sin ningún inconveniente. También permite tratar una gran cantidad de variables

predictivas (hasta varios millares). Esto último es de gran utilidad para seleccionar vari-

ables (determinar las más útiles dentro de una gran masa).

Algunas cosas que se puede hacer con el DM

El usuario del DM usualmente busca los siguientes cuatro tipos de relaciones:

(i) Clases: las observaciones se asignan a grupos predeterminados. El proceso de clasi-

ﬁcación consiste en asignar un conjunto de datos a grupos ﬁjados de manera que

se minimice la probabilidad de una clasiﬁcación errónea. Por ejemplo, un problema

típico de clasiﬁcación es el de dividir una base de datos de bancos en grupos que sean

lo más homogéneos posibles con respecto a variables como posibilidades de crédito

en términos de valores tales como bueno o malo.

(ii) Clusters: se construyen grupos de observaciones similares según un criterio preﬁja-

do. El proceso de clustering (agrupamiento) consiste en subdividir un conjunto de

datos en grupos mutuamente excluyentes de tal manera que cada miembro de un

grupo esté lo más cercano posible a otro elemento, y grupos diferentes estén lo más

lejos posible entre sí, de modo que la distancia está medida respecto a todas las vari-

ables disponibles. Un típico ejemplo de aplicación de clustering es la clasiﬁcación de

segmentos de mercado. Por ejemplo, una empresa quiere introducirse en el mercado

de bebidas alcohólicas, pero antes hace una encuesta de mercado para averiguar si

existen grupos de clientes con costumbres particulares en el consumo de bebidas.

La empresa quiere introducirse en el grupo (si existe) que esté menos servido por la

2

competencia. En este ejemplo no existen grupos de clientes predeterminados

(iii) Asociaciones: las observaciones son usadas para identiﬁcar asociaciones entre vari-

ables. La búsqueda de asociaciones es diferente a la búsqueda de relaciones causales.

Las relaciones causales son mucho más difíciles de encontrar que las asociaciones, de-

bido a la presencia de variables no observadas. Las relaciones causales y asociaciones

no son equivalentes: si hay asociaciones no tiene por qué haber causalidad.

(iv) Patrones secuenciales: se trata de identiﬁcar patrones de comportamiento y ten-

dencias. Un ejemplo sería intensidades de expresión en microarrays que permiten

distinguir entre diferentes expresiones de genes para individuos con cancer o sin él.

Ejemplos de aplicación del Data Mining

Algunas áreas de aplicación del DM son:

Toma de Decisiones. Ejemplos: banca, ﬁnanzas, seguros, marketing, políticas sani-

tarias o demográﬁcas.

Procesos Industriales.

Investigación Cientíﬁca Ejemplos: medicina, epidemiología, bioinformática, psicología.

Soporte al Diseño de Bases de Datos.

Mejora de Calidad de Datos.

Mejora en el área de empresas de Consulting.

A continuación se indican algunos ejemplos de aplicación del DM.

1. Comercio/Marketing

a) Identiﬁcación de patrones de compra de los clientes.

3

b) Búsqueda de asociaciones entre clientes y características demográﬁcas.

c) Predicción de respuesta a campañas de correo.

d) Análisis de cestas de la compra.

2. Banca

a) Detección de patrones de uso fraudulento de tarjetas de crédito.

b) Identiﬁcación de clientes leales.

c) Predicción de clientes con probabilidad de cambiar su aﬁliación.

d) Determinación del gasto de tarjeta de crédito por grupos.

e) Búsqueda de correlaciones entre indicadores ﬁnancieros.

f ) Identiﬁcación de reglas de mercado de valores a partir de históricos.

3. Seguros y Salud Privada

a) Análisis de procedimientos médicos solicitados.

b) Predicción de qué clientes compran nuevas pólizas.

c) Identiﬁcación patrones de comportamiento para clientes con riesgo.

d) Identiﬁcación de comportamiento fraudulento.

4. Transportes

a) Determinación de la planiﬁcación de la distribución entre tiendas.

b) Análisis de patrones de carga.

5. Medicina

a) Identiﬁcación de terapias médicas adecuadas para diferentes enfermedades.

b) Asociación de síntomas y clasiﬁcación diferencial de patologías.

4

c) Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo

en distintas patologías.

d) Segmentación de pacientes para una atención más adecuada según su grupo.

e) Predicciones temporales de los centros asistenciales para el mejor uso de recur-

sos, consultas, salas y habitaciones.

f ) Estudios epidemiológicos, análisis de rendimientos de campañas de informa-

ción, prevención, sustitución de fármacos, etc.

Ejemplos de éxito en la aplicación del Data Mining

Este coche conduce automáticamente en la autovía.

Utilizas una cámara digital y las imágenes se elaboran para reconocer las líneas blancas.

5

Algunas Técnicas Estadísticas utilizadas en Data Mining

Como en todo procedimiento automático, las predicciones estadísticas de Data Mining

deben ser inspeccionadas por personas familiarizadas con la materia de trabajo, de manera

que comprendan y veriﬁquen lo que se ha producido.

Hay que encontrar un término medio entre la capacidad explicativa del modelo (clar-

idad) y su poder de predicción. En general, conforme aumenta el poder de predicción del

modelo baja su capacidad de interpretar el fenómeno objeto de estudio. Mientras más

sencilla sea la forma del modelo, más fácil será su comprensión, pero tendrá menor ca-

pacidad para tener en cuenta dependencias sutiles o demasiado variadas (no lineales). Por

ejemplo, los árboles de decisión conducen a modelos de fácil interpretación, pero tienen

un bajo poder predictivo porque las decisiones son tomadas al contestar a preguntas de

tipo binario Si—No. Al contrario, las redes neuronales tienen una gran poder predictivo

(y tienen también la posibilidad de adaptarse a valores bastante indeﬁnidos e incluso

ausentes), pero resulta muy difícil asignar una interpretación a su funcionamiento: seria,

un poco, como si quisiéramos examinar el cerebro de alguien para saber lo que piensa.

6

Sin embargo, una buena herramienta de visualización le da la posibilidad al usuario de

reconstruir el razonamiento de la red neuronal. Según cuál sea el precio a pagar, y una

vez que se haya establecido la conﬁanza en la herramienta establecida, el usuario notará,

la mayoría de las veces, que la pérdida parcial de comprensión será más que compensada

por la calidad de las predicciones.

Ninguno de los modelos estadísticos presentados es nuevo. Los árboles de decisión y

de regresión han sido utilizados en ciencias sociales en los años 60; las bases de reglas

fueron popularizadas durante el auge de los sistemas expertos en los 80 y la evaluación

por puntuación apreciada por los banqueros durante largos decenios. Incluso las redes

neuronales aparecieron ya en los años 40, pero ha sido preciso el desarrollo del poder de

cálculo de estos últimos años para que, por ﬁn, fueran utilizables de manera sencilla.

La mayoría de estos previsores se fabrican, no por cálculo directo partiendo de los datos

como antes, sino a través de métodos tomados del campo de la inteligencia artiﬁcial. Las

dos técnicas principales son el aprendizaje (a partir de un modelo cualquiera que se ajusta

progresivamente a la realidad) y la evolución (o vida artiﬁcial, un conglomerado de varios

miles de modelos cualquiera son susceptibles de evolucionar de manera competitiva o

darwiniana). Además, todas las herramientas permiten que se determine la importancia de

cada variable para la decisión (distintividad o carácter pertinente). Esto resulta de extrema

utilidad para proceder a la selección de variables. Al haber determinado con precisión

las variables más pertinentes, se podrá optar por retomar el problema con técnicas más

convencionales si ciertas restricciones de explotación lo imponen.

Las técnicas hasta ahora descritas sólo tratan datos numéricos o cualitativos. El mining

surge ante el problema cada ve