Publicado el 1 de Junio del 2021
438 visualizaciones desde el 1 de Junio del 2021
155,6 KB
23 paginas
Creado hace 15a (01/10/2009)
1
Algoritmos de minería de datos incluidos en SQL Server 2008
Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive
de Microsoft, Clústeres de Microsoft, Serie temporal de Microsoft, Reglas de asociación de
Microsoft, Clústeres de secuencia de Microsoft, Regresión lineal de Microsoft, Red neuronal
de Microsoft, Regresión logística de Microsoft.
1. Algoritmo de árboles de decisión de Microsoft [MIC2009a]
El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y
regresión proporcionado por Microsoft SQL Server Analysis Services para el modelado de
predicción de atributos discretos y continuos.
Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones
entre las columnas de entrada de un conjunto de datos. Utiliza los valores, conocidos como
estados, de estas columnas para predecir los estados de una columna que se designa como
elemento de predicción. Específicamente, el algoritmo identifica las columnas de entrada que
se correlacionan con la columna de predicción. Por ejemplo, en un escenario para predecir qué
clientes van a adquirir probablemente una bicicleta, si nueve de diez clientes jóvenes compran
una bicicleta, pero sólo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la
edad es un buen elemento de predicción en la compra de bicicletas. El árbol de decisión realiza
predicciones basándose en la tendencia hacia un resultado concreto.
Para los atributos continuos, el algoritmo usa la regresión lineal para determinar dónde
se divide un árbol de decisión.
Si se define más de una columna como elemento de predicción, o si los datos de
entrada contienen una tabla anidada que se haya establecido como elemento de predicción, el
algoritmo genera un árbol de decisión independiente para cada columna de predicción.
Cómo funciona el algoritmo
El algoritmo de árboles de decisión de Microsoft genera un modelo de minería de
datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se
representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de
entrada tiene una correlación significativa con la columna de predicción. La forma en que el
algoritmo determina una división varía en función de si predice una columna continua o una
columna discreta.
2
El algoritmo de árboles de decisión de Microsoft utiliza la selección de
características para guiar la selección de los atributos más útiles. Todos los algoritmos de
minería de datos de Analysis Services utilizan la selección de características para mejorar el
rendimiento y la calidad del análisis. La selección de características es importante para evitar
que los atributos irrelevantes utilicen tiempo de procesador. Si se utilizan demasiados atributos
de predicción o de entrada al diseñar un modelo de minería de datos, el modelo puede tardar
mucho tiempo en procesarse o incluso quedarse sin memoria. Entre los métodos que se usan
para determinar si hay que dividir el árbol figuran métricas estándar del sector para la entropía
y las redes Bayesianas.
Un problema común de los modelos de minería de datos es que el modelo se vuelve
demasiado sensible a las diferencias pequeñas en los datos de entrenamiento, en cuyo caso se
dice que está sobreajustado o sobreentrenado. Un modelo sobreajustado no se puede
generalizar a otros conjuntos de datos. Para evitar sobreajustar un conjunto de datos
determinado, el algoritmo de árboles de decisión de Microsoft utiliza técnicas para controlar el
crecimiento del árbol.
Predecir columnas discretas
La forma en que el algoritmo de árboles de decisión de Microsoft genera un árbol
para una columna de predicción discreta puede mostrarse mediante un histograma. La Figura 1
muestra un histograma que traza una columna de predicción, Comprador, con una columna de
entrada, Edad. El histograma muestra que la edad de una persona ayuda a distinguir si esa
persona comprará una bicicleta.
Figura 1: Histograma de una columna de predicción.
3
La correlación que aparece en la Figura 1 hará que el algoritmo de árboles de
decisión de Microsoft cree un nuevo nodo en el modelo.
Figura 2: Llenado de un árbol de decisión.
A medida que el algoritmo agrega nuevos nodos a un modelo, se forma una
estructura en árbol. El nodo superior del árbol describe el desglose de la columna de
predicción para la población global de clientes. A medida que el modelo crece, el algoritmo
considera todas las columnas.
Predecir columnas continuas
Cuando el algoritmo de árboles de decisión de Microsoft genera un árbol basándose
en una columna de predicción continua, cada nodo contiene una fórmula de regresión. Se
produce una división en un punto de no linealidad de la fórmula de regresión. Por ejemplo,
considere la Figura 3.
Figura 3: División en un punto de no linealidad de la fórmula de regresión.
La Figura 3 contiene los datos que pueden modelarse utilizando una sola línea o dos
líneas conectadas. Sin embargo, una sola línea realizará un pobre trabajo en la representación
de los datos. En su lugar, si se usan dos líneas, el modelo hará un mejor trabajo en la
aproximación a los datos. El punto donde las dos líneas se unen es el punto de no linealidad y
donde se dividiría un nodo de un modelo de árbol de decisión. Por ejemplo, el nodo que
4
corresponde al punto de no linealidad del gráfico anterior podría representarse mediante la
Figura 4. Las dos ecuaciones representan las ecuaciones de regresión de las dos líneas.
Figura 4: Representación de un punto de no linealidad.
Requisitos para un modelo de árboles de decisión
Una única columna key: Cada modelo debe contener una columna numérica o de
texto que identifique cada registro de manera única. No están permitidas las claves
compuestas.
Una columna de predicción: Se requiere al menos una columna de predicción. Puede
incluir varios atributos de predicción en un modelo y pueden ser de tipos diferentes, numérico
o discreto. Sin embargo, el incremento del número de atributos de predicción puede aumentar
el tiempo de procesamiento.
Columnas de entrada: Se requieren columnas de entrada, que pueden ser discretas o
continuas. Aumentar el número de atributos de entrada afecta al tiempo de procesamiento.
Ver un modelo de árboles de decisión
Para examinar el modelo, puede utilizar el Visor de árboles de Microsoft. Si un
modelo genera varios árboles, puede seleccionar uno y el visor muestra un esquema de cómo
se clasifican los casos para cada atributo de predicción. También puede ver la interacción de
los árboles utilizando el visor de redes de dependencias.
Si desea obtener información más detallada sobre cualquier bifurcación o nodo del
árbol, también puede examinar el modelo utilizando el Visor de árbol de contenido genérico
de Microsoft. El contenido almacenado para el modelo incluye la distribución para todos los
valores de cada nodo, las probabilidades en cada nivel del árbol y las fórmulas de regresión
para los atributos continuos.
2. Algoritmo Bayes naive de Microsoft [MIC2009b]
5
El algoritmo Bayes naive de Microsoft es un algoritmo de clasificación que
proporciona Microsoft SQL Server Analysis Services para el modelado de predicción. El
nombre Bayes naive deriva del hecho de que el algoritmo usa el teorema de Bayes, pero no
tiene en cuenta las dependencias que pudieran existir y, por consiguiente, se dice que sus
suposiciones son ingenuas o "naive".
Desde el punto de vista computacional, el algoritmo es menos complejo que otros
algoritmos de Microsoft y, por tanto, resulta útil para generar rápidamente modelos de minería
de datos para descubrir relaciones entre columnas de entrada y columnas de predicción. Se
puede utilizar este algoritmo para realizar exploraciones iniciales de datos y, más adelante,
aplicar los resultados para crear modelos de minería de datos adicionales con otros algoritmos
más complejos y precisos desde el punto de vista computacional.
Funcionamiento del algoritmo
El algoritmo Bayes naive de Microsoft calcula la probabilidad de cada estado de cada
columna de entrada, dado cada posible estado de la columna de predicción. Puede utilizar el
Visor Bayes naive de Microsoft en Business Intelligence Development Studio para consultar
una representación visual del modo en que el algoritmo distribuye los estados, como se
muestra en la Figura 5.
6
Figura 5: Columnas de entrada, dado cada probable estado de la columna de predicción.
El Visor Bayes naive de Microsoft muestra las columnas de entrada del conjunto de
datos e indica cómo se distribuyen los estados de cada columna, dado cada estado de la
columna de predicción. Puede usar esta vista para identificar las columnas de entrada que son
importantes para diferenciar los distintos estados de la columna de predicción. Por ejemplo, en
la columna Commute Distance (distancia que se ha de recorrer para llegar al trabajo), si el
cliente tiene que desplazarse una distancia de dos a tres kilómetros, la probabilidad de que
dicho cliente adquiera una bicicleta es de 0,387, mientras que la probabilidad de que no la
adquiera es de 0,287. En este ejemplo, el algoritmo utiliza la información numérica derivada
de un dato de cliente como la distancia entre el domicilio y el
Comentarios de: Algoritmos de minería de datos incluidos en SQL Server 2008 (0)
No hay comentarios