Publicado el 17 de Septiembre del 2018
465 visualizaciones desde el 17 de Septiembre del 2018
637,4 KB
23 paginas
Creado hace 12a (20/12/2011)
Universidad de Santiago de Chile
Departamento de Ingeniería Informática
Magister en Ingeniería Informática
Práctico Bases de Datos Modernas
Minería de datos
Ayudante : César Villalobos Luengo
Fecha : Octubre del 2010
Profesora : Dra. Angélica Urrutia
Ramo : Bases de Datos Moderna
Tabla de Contenidos
Ayudantía Sistemas de Gestión II ICI
Estructuras de minería de datos (Analysis Services - Minería de datos) ......................... 3
Definir estructuras de minería de datos........................................................................... 4
Tipos de algoritmos de minería de datos ......................................................................... 4
Tipos de algoritmos incluidos en SQL Server 2008 .......................................................... 5
Algoritmo de árboles de decisión de Microsoft ............................................................... 5
Cómo funciona el algoritmo. ........................................................................................ 6
Predecir columnas discretas. ........................................................................................ 7
Predecir columnas continuas. ...................................................................................... 8
Requisitos para un modelo de árboles de decisión...................................................... 9
Ver un modelo de árboles de decisión. ........................................................................ 9
Ejemplo ......................................................................................................................... 9
Crear Nuevo Proyecto: ........................................................................................... 10
Origen de Datos ...................................................................................................... 10
Vista de Origen de Datos ........................................................................................ 11
Seleccionar estructura ........................................................................................... 11
Interpretación del los resultados ........................................................................... 17
Para modificar el árbol ...................................................................................... 18
Red de dependencies ........................................................................................ 19
Realizar Predicción ................................................................................................. 20
Ayudante: Cesar Villalobos Luengo
2
Ayudantía Sistemas de Gestión II ICI
Estructuras de minería de datos (Analysis Services - Minería de datos)
La estructura de minería de datos define los datos a partir de los cuales se generan los
modelos de minería de datos: especifica la vista de datos de origen, el número y el tipo de
columnas, y una partición opcional en conjuntos de entrenamiento y de pruebas. Una misma
estructura de minería de datos puede admitir varios modelos de minería de datos que
comparten el mismo dominio. En el diagrama siguiente, se muestra la relación de la estructura
de minería de datos con el origen de datos y con los modelos de minería de datos que la
componen.
La estructura de minería de datos del diagrama está basada en un origen de datos que
contiene varias tablas o vistas, combinadas en el campo CustomerID. Una tabla contiene
información sobre los clientes, como la región geográfica, la edad, los ingresos y el sexo,
mientras que la tabla anidada relacionada contiene varias filas de información adicional sobre
cada cliente, como los productos que ha adquirido. En el diagrama, se muestra que se pueden
generar varios modelos de minería de datos a partir de una misma estructura de minería de
datos, y que los modelos pueden usar columnas de la estructura diferentes.
Modelo 1: Usa CustomerID, Income, Age, Region y filtra los datos de Region.
Modelo 2: Usa CustomerID, Income, Age, Region y filtra los datos de Age.
Modelo 3: Usa CustomerID, Age, Gender y la tabla anidada, sin filtros.
Dado que los modelos usan columnas diferentes para la entrada, y dado que dos de los
modelos, además, restringen sus datos mediante la aplicación de un filtro, los modelos pueden
tener resultados muy diferentes aunque estén basados en los mismos datos. Observe que la
columna CustomerID es obligatoria en todos los modelos porque es la única columna
disponible que se puede usar como clave de caso.
Ayudante: Cesar Villalobos Luengo
3
Ayudantía Sistemas de Gestión II ICI
Definir estructuras de minería de datos
La configuración de una estructura de minería de datos consta de los pasos siguientes:
•
•
•
•
Definir un origen de datos.
Seleccionar las columnas de estructura y definir una clave.
Crear particiones de los datos de origen en un conjunto de entrenamiento y un
conjunto de pruebas opcional.
Procesar la estructura.
Tipos de algoritmos de minería de datos
Analysis Services incluye los siguientes tipos de algoritmos:
Algoritmos de clasificación, que predicen una o más variables discretas, basándose en
otros atributos del conjunto de datos. Un ejemplo de algoritmo de clasificación es el
Algoritmo de árboles de decisión de Microsoft.
Algoritmos de regresión, que predicen una o más variables continuas, como las
pérdidas o los beneficios, basándose en otros atributos del conjunto de datos. Un ejemplo
de algoritmo de regresión es el Algoritmo de serie temporal de Microsoft (Analysis
Services - Minería de datos).
Algoritmos de segmentación, que dividen los datos en grupos, o clústeres, de
elementos que tienen propiedades similares. Un ejemplo de algoritmo de segmentación
es el Algoritmo de clústeres de Microsoft (Analysis Services - Minería de datos).
Algoritmos de asociación, que buscan correlaciones entre diferentes atributos de un
conjunto de datos. La aplicación más común de esta clase de algoritmo es la creación de
reglas de asociación, que pueden utilizarse en un análisis de la cesta de compra. Un
ejemplo de algoritmo de asociación es el Algoritmo de asociación de Microsoft.
Algoritmos de análisis de secuencias, que resumen secuencias o episodios frecuentes
en los datos, como un flujo de rutas Web. Un ejemplo de algoritmo de análisis de
secuencias es el Algoritmo de agrupación en clústeres de secuencia de Microsoft.
•
•
•
•
•
Ayudante: Cesar Villalobos Luengo
4
Ayudantía Sistemas de Gestión II ICI
Tipos de algoritmos incluidos en SQL Server 2008
SQL Server trae una gran gama de algoritmos de minería de datos, en las siguientes
ayudantías trataremos de ver cada uno de ellos.
En la siguiente lista se especifican cada uno de estos algoritmos
• Algoritmo de árboles de decisión
• Algoritmo de clústeres
• Algoritmo Bayes naive
• Algoritmo de asociación
• Algoritmo de serie temporal
• Algoritmo de red neuronal
• Algoritmo de regresión logística
• Algoritmo de regresión lineal
• Algoritmo de agrupación
Algoritmo de árboles de decisión de Microsoft
El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y
regresión proporcionado por Microsoft SQL Server Analysis Services para el modelado de
predicción de atributos discretos y continuos.
Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones
entre las columnas de entrada de un conjunto de datos. Utiliza los valores, conocidos como
estados, de estas columnas para predecir los estados de una columna que se designa como
elemento de predicción. Específicamente, el algoritmo identifica las columnas de entrada que
se correlacionan con la columna de predicción. Por ejemplo, en un escenario para predecir qué
clientes van a adquirir probablemente una bicicleta, si nueve de diez clientes jóvenes compran
una bicicleta, pero sólo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la
edad es un buen elemento de predicción en la compra de bicicletas. El árbol de decisión realiza
predicciones basándose en la tendencia hacia un resultado concreto.
Para los atributos continuos, el algoritmo usa la regresión lineal para determinar
dónde se divide un árbol de decisión.
Si se define más de una columna como elemento de predicción, o si los datos de
entrada contienen una tabla anidada que se haya establecido como elemento de predicción, el
algoritmo genera un árbol de decisión independiente para cada columna de predicción.
Ayudante: Cesar Villalobos Luengo
5
Cómo funciona el algoritmo.
Ayudantía Sistemas de Gestión II ICI
El algoritmo de árboles de decisión de Microsoft genera un modelo de minería de
datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se
representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de
entrada tiene una correlación significativa con la columna de predicción. La forma en que el
algoritmo determina una división varía en función de si predice una columna continua o una
columna discreta.
El algoritmo de árboles de decisión de Microsoft utiliza la selección de características
para guiar la selección de los atributos más útiles. Todos los algoritmos de minería de datos de
Analysis Services utilizan la selección de características para mejorar el rendimiento y la calidad
del análisis. La selección de características es importante para evitar que los atributos
irrelevantes utilicen tiempo de pro
Comentarios de: Práctico Bases de Datos Modernas - Minería de datos (0)
No hay comentarios