PDF de programación - Algoritmos de minería de datos incluidos en SQL Server 2008

Volver

<<>>

Algoritmos de minería de datos incluidos en SQL Server 2008

Publicado el 1 de Junio del 2021

572 visualizaciones desde el 1 de Junio del 2021

155,6 KB

23 paginas

Creado hace 16a (01/10/2009)

1

Algoritmos de minería de datos incluidos en SQL Server 2008

Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive

de Microsoft, Clústeres de Microsoft, Serie temporal de Microsoft, Reglas de asociación de

Microsoft, Clústeres de secuencia de Microsoft, Regresión lineal de Microsoft, Red neuronal

de Microsoft, Regresión logística de Microsoft.

1. Algoritmo de árboles de decisión de Microsoft [MIC2009a]

El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y

regresión proporcionado por Microsoft SQL Server Analysis Services para el modelado de

predicción de atributos discretos y continuos.

Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones

entre las columnas de entrada de un conjunto de datos. Utiliza los valores, conocidos como

estados, de estas columnas para predecir los estados de una columna que se designa como

elemento de predicción. Específicamente, el algoritmo identifica las columnas de entrada que

se correlacionan con la columna de predicción. Por ejemplo, en un escenario para predecir qué

clientes van a adquirir probablemente una bicicleta, si nueve de diez clientes jóvenes compran

una bicicleta, pero sólo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la

edad es un buen elemento de predicción en la compra de bicicletas. El árbol de decisión realiza

predicciones basándose en la tendencia hacia un resultado concreto.

Para los atributos continuos, el algoritmo usa la regresión lineal para determinar dónde

se divide un árbol de decisión.

Si se define más de una columna como elemento de predicción, o si los datos de

entrada contienen una tabla anidada que se haya establecido como elemento de predicción, el

algoritmo genera un árbol de decisión independiente para cada columna de predicción.

Cómo funciona el algoritmo

El algoritmo de árboles de decisión de Microsoft genera un modelo de minería de

datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se

representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de

entrada tiene una correlación significativa con la columna de predicción. La forma en que el

algoritmo determina una división varía en función de si predice una columna continua o una

columna discreta.

2

El algoritmo de árboles de decisión de Microsoft utiliza la selección de

características para guiar la selección de los atributos más útiles. Todos los algoritmos de

minería de datos de Analysis Services utilizan la selección de características para mejorar el

rendimiento y la calidad del análisis. La selección de características es importante para evitar

que los atributos irrelevantes utilicen tiempo de procesador. Si se utilizan demasiados atributos

de predicción o de entrada al diseñar un modelo de minería de datos, el modelo puede tardar

mucho tiempo en procesarse o incluso quedarse sin memoria. Entre los métodos que se usan

para determinar si hay que dividir el árbol figuran métricas estándar del sector para la entropía

y las redes Bayesianas.

Un problema común de los modelos de minería de datos es que el modelo se vuelve

demasiado sensible a las diferencias pequeñas en los datos de entrenamiento, en cuyo caso se

dice que está sobreajustado o sobreentrenado. Un modelo sobreajustado no se puede

generalizar a otros conjuntos de datos. Para evitar sobreajustar un conjunto de datos

determinado, el algoritmo de árboles de decisión de Microsoft utiliza técnicas para controlar el

crecimiento del árbol.

Predecir columnas discretas

La forma en que el algoritmo de árboles de decisión de Microsoft genera un árbol

para una columna de predicción discreta puede mostrarse mediante un histograma. La Figura 1

muestra un histograma que traza una columna de predicción, Comprador, con una columna de

entrada, Edad. El histograma muestra que la edad de una persona ayuda a distinguir si esa

persona comprará una bicicleta.

Figura 1: Histograma de una columna de predicción.

3

La correlación que aparece en la Figura 1 hará que el algoritmo de árboles de

decisión de Microsoft cree un nuevo nodo en el modelo.

Figura 2: Llenado de un árbol de decisión.

A medida que el algoritmo agrega nuevos nodos a un modelo, se forma una

estructura en árbol. El nodo superior del árbol describe el desglose de la columna de

predicción para la población global de clientes. A medida que el modelo crece, el algoritmo

considera todas las columnas.

Predecir columnas continuas

Cuando el algoritmo de árboles de decisión de Microsoft genera un árbol basándose

en una columna de predicción continua, cada nodo contiene una fórmula de regresión. Se

produce una división en un punto de no linealidad de la fórmula de regresión. Por ejemplo,

considere la Figura 3.

Figura 3: División en un punto de no linealidad de la fórmula de regresión.

La Figura 3 contiene los datos que pueden modelarse utilizando una sola línea o dos

líneas conectadas. Sin embargo, una sola línea realizará un pobre trabajo en la representación

de los datos. En su lugar, si se usan dos líneas, el modelo hará un mejor trabajo en la

aproximación a los datos. El punto donde las dos líneas se unen es el punto de no linealidad y

donde se dividiría un nodo de un modelo de árbol de decisión. Por ejemplo, el nodo que

4

corresponde al punto de no linealidad del gráfico anterior podría representarse mediante la

Figura 4. Las dos ecuaciones representan las ecuaciones de regresión de las dos líneas.

Figura 4: Representación de un punto de no linealidad.

Requisitos para un modelo de árboles de decisión

Una única columna key: Cada modelo debe contener una columna numérica o de

texto que identifique cada registro de manera única. No están permitidas las claves

compuestas.

Una columna de predicción: Se requiere al menos una columna de predicción. Puede

incluir varios atributos de predicción en un modelo y pueden ser de tipos diferentes, numérico

o discreto. Sin embargo, el incremento del número de atributos de predicción puede aumentar

el tiempo de procesamiento.

Columnas de entrada: Se requieren columnas de entrada, que pueden ser discretas o

continuas. Aumentar el número de atributos de entrada afecta al tiempo de procesamiento.

Ver un modelo de árboles de decisión

Para examinar el modelo, puede utilizar el Visor de árboles de Microsoft. Si un

modelo genera varios árboles, puede seleccionar uno y el visor muestra un esquema de cómo

se clasifican los casos para cada atributo de predicción. También puede ver la interacción de

los árboles utilizando el visor de redes de dependencias.

Si desea obtener información más detallada sobre cualquier bifurcación o nodo del

árbol, también puede examinar el modelo utilizando el Visor de árbol de contenido genérico

de Microsoft. El contenido almacenado para el modelo incluye la distribución para todos los

valores de cada nodo, las probabilidades en cada nivel del árbol y las fórmulas de regresión

para los atributos continuos.

2. Algoritmo Bayes naive de Microsoft [MIC2009b]

5

El algoritmo Bayes naive de Microsoft es un algoritmo de clasificación que

proporciona Microsoft SQL Server Analysis Services para el modelado de predicción. El

nombre Bayes naive deriva del hecho de que el algoritmo usa el teorema de Bayes, pero no

tiene en cuenta las dependencias que pudieran existir y, por consiguiente, se dice que sus

suposiciones son ingenuas o "naive".

Desde el punto de vista computacional, el algoritmo es menos complejo que otros

algoritmos de Microsoft y, por tanto, resulta útil para generar rápidamente modelos de minería

de datos para descubrir relaciones entre columnas de entrada y columnas de predicción. Se

puede utilizar este algoritmo para realizar exploraciones iniciales de datos y, más adelante,

aplicar los resultados para crear modelos de minería de datos adicionales con otros algoritmos

más complejos y precisos desde el punto de vista computacional.

Funcionamiento del algoritmo

El algoritmo Bayes naive de Microsoft calcula la probabilidad de cada estado de cada

columna de entrada, dado cada posible estado de la columna de predicción. Puede utilizar el

Visor Bayes naive de Microsoft en Business Intelligence Development Studio para consultar

una representación visual del modo en que el algoritmo distribuye los estados, como se

muestra en la Figura 5.

6

Figura 5: Columnas de entrada, dado cada probable estado de la columna de predicción.

El Visor Bayes naive de Microsoft muestra las columnas de entrada del conjunto de

datos e indica cómo se distribuyen los estados de cada columna, dado cada estado de la

columna de predicción. Puede usar esta vista para identificar las columnas de entrada que son

importantes para diferenciar los distintos estados de la columna de predicción. Por ejemplo, en

la columna Commute Distance (distancia que se ha de recorrer para llegar al trabajo), si el

cliente tiene que desplazarse una distancia de dos a tres kilómetros, la probabilidad de que

dicho cliente adquiera una bicicleta es de 0,387, mientras que la probabilidad de que no la

adquiera es de 0,287. En este ejemplo, el algoritmo utiliza la información numérica derivada

de un dato de cliente como la distancia entre el domicilio y el