PDF de programación - Práctico Bases de Datos Modernas - Minería de datos

Volver

Filtrado por el tag: configurar imap

<<>>

Práctico Bases de Datos Modernas - Minería de datos

Publicado el 17 de Septiembre del 2018

521 visualizaciones desde el 17 de Septiembre del 2018

637,4 KB

23 paginas

Creado hace 13a (20/12/2011)

Universidad de Santiago de Chile
Departamento de Ingeniería Informática
Magister en Ingeniería Informática

Práctico Bases de Datos Modernas

Minería de datos

Ayudante : César Villalobos Luengo
Fecha : Octubre del 2010
Profesora : Dra. Angélica Urrutia
Ramo : Bases de Datos Moderna

Tabla de Contenidos

Ayudantía Sistemas de Gestión II ICI

Estructuras de minería de datos (Analysis Services - Minería de datos) ......................... 3

Definir estructuras de minería de datos........................................................................... 4

Tipos de algoritmos de minería de datos ......................................................................... 4

Tipos de algoritmos incluidos en SQL Server 2008 .......................................................... 5

Algoritmo de árboles de decisión de Microsoft ............................................................... 5

Cómo funciona el algoritmo. ........................................................................................ 6

Predecir columnas discretas. ........................................................................................ 7

Predecir columnas continuas. ...................................................................................... 8

Requisitos para un modelo de árboles de decisión...................................................... 9

Ver un modelo de árboles de decisión. ........................................................................ 9

Ejemplo ......................................................................................................................... 9

Crear Nuevo Proyecto: ........................................................................................... 10

Origen de Datos ...................................................................................................... 10

Vista de Origen de Datos ........................................................................................ 11

Seleccionar estructura ........................................................................................... 11

Interpretación del los resultados ........................................................................... 17

Para modificar el árbol ...................................................................................... 18

Red de dependencies ........................................................................................ 19

Realizar Predicción ................................................................................................. 20

Ayudante: Cesar Villalobos Luengo

2

Ayudantía Sistemas de Gestión II ICI

Estructuras de minería de datos (Analysis Services - Minería de datos)

La estructura de minería de datos define los datos a partir de los cuales se generan los
modelos de minería de datos: especifica la vista de datos de origen, el número y el tipo de
columnas, y una partición opcional en conjuntos de entrenamiento y de pruebas. Una misma
estructura de minería de datos puede admitir varios modelos de minería de datos que
comparten el mismo dominio. En el diagrama siguiente, se muestra la relación de la estructura
de minería de datos con el origen de datos y con los modelos de minería de datos que la
componen.

La estructura de minería de datos del diagrama está basada en un origen de datos que
contiene varias tablas o vistas, combinadas en el campo CustomerID. Una tabla contiene
información sobre los clientes, como la región geográfica, la edad, los ingresos y el sexo,
mientras que la tabla anidada relacionada contiene varias filas de información adicional sobre
cada cliente, como los productos que ha adquirido. En el diagrama, se muestra que se pueden
generar varios modelos de minería de datos a partir de una misma estructura de minería de
datos, y que los modelos pueden usar columnas de la estructura diferentes.

Modelo 1: Usa CustomerID, Income, Age, Region y filtra los datos de Region.

Modelo 2: Usa CustomerID, Income, Age, Region y filtra los datos de Age.

Modelo 3: Usa CustomerID, Age, Gender y la tabla anidada, sin filtros.

Dado que los modelos usan columnas diferentes para la entrada, y dado que dos de los
modelos, además, restringen sus datos mediante la aplicación de un filtro, los modelos pueden
tener resultados muy diferentes aunque estén basados en los mismos datos. Observe que la
columna CustomerID es obligatoria en todos los modelos porque es la única columna
disponible que se puede usar como clave de caso.

Ayudante: Cesar Villalobos Luengo

3

Ayudantía Sistemas de Gestión II ICI

Definir estructuras de minería de datos

La configuración de una estructura de minería de datos consta de los pasos siguientes:

•

•

•

•

Definir un origen de datos.

Seleccionar las columnas de estructura y definir una clave.

Crear particiones de los datos de origen en un conjunto de entrenamiento y un

conjunto de pruebas opcional.

Procesar la estructura.

Tipos de algoritmos de minería de datos

Analysis Services incluye los siguientes tipos de algoritmos:

Algoritmos de clasificación, que predicen una o más variables discretas, basándose en

otros atributos del conjunto de datos. Un ejemplo de algoritmo de clasificación es el
Algoritmo de árboles de decisión de Microsoft.

Algoritmos de regresión, que predicen una o más variables continuas, como las

pérdidas o los beneficios, basándose en otros atributos del conjunto de datos. Un ejemplo
de algoritmo de regresión es el Algoritmo de serie temporal de Microsoft (Analysis
Services - Minería de datos).

Algoritmos de segmentación, que dividen los datos en grupos, o clústeres, de

elementos que tienen propiedades similares. Un ejemplo de algoritmo de segmentación
es el Algoritmo de clústeres de Microsoft (Analysis Services - Minería de datos).

Algoritmos de asociación, que buscan correlaciones entre diferentes atributos de un
conjunto de datos. La aplicación más común de esta clase de algoritmo es la creación de
reglas de asociación, que pueden utilizarse en un análisis de la cesta de compra. Un
ejemplo de algoritmo de asociación es el Algoritmo de asociación de Microsoft.

Algoritmos de análisis de secuencias, que resumen secuencias o episodios frecuentes

en los datos, como un flujo de rutas Web. Un ejemplo de algoritmo de análisis de
secuencias es el Algoritmo de agrupación en clústeres de secuencia de Microsoft.

•

•

•

•

•

Ayudante: Cesar Villalobos Luengo

4

Ayudantía Sistemas de Gestión II ICI

Tipos de algoritmos incluidos en SQL Server 2008

SQL Server trae una gran gama de algoritmos de minería de datos, en las siguientes

ayudantías trataremos de ver cada uno de ellos.

En la siguiente lista se especifican cada uno de estos algoritmos

• Algoritmo de árboles de decisión
• Algoritmo de clústeres
• Algoritmo Bayes naive
• Algoritmo de asociación
• Algoritmo de serie temporal
• Algoritmo de red neuronal
• Algoritmo de regresión logística
• Algoritmo de regresión lineal
• Algoritmo de agrupación

Algoritmo de árboles de decisión de Microsoft

El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y

regresión proporcionado por Microsoft SQL Server Analysis Services para el modelado de

predicción de atributos discretos y continuos.

Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones

entre las columnas de entrada de un conjunto de datos. Utiliza los valores, conocidos como

estados, de estas columnas para predecir los estados de una columna que se designa como

elemento de predicción. Específicamente, el algoritmo identifica las columnas de entrada que

se correlacionan con la columna de predicción. Por ejemplo, en un escenario para predecir qué

clientes van a adquirir probablemente una bicicleta, si nueve de diez clientes jóvenes compran

una bicicleta, pero sólo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la

edad es un buen elemento de predicción en la compra de bicicletas. El árbol de decisión realiza

predicciones basándose en la tendencia hacia un resultado concreto.

Para los atributos continuos, el algoritmo usa la regresión lineal para determinar

dónde se divide un árbol de decisión.

Si se define más de una columna como elemento de predicción, o si los datos de

entrada contienen una tabla anidada que se haya establecido como elemento de predicción, el

algoritmo genera un árbol de decisión independiente para cada columna de predicción.

Ayudante: Cesar Villalobos Luengo

5

Cómo funciona el algoritmo.

Ayudantía Sistemas de Gestión II ICI

El algoritmo de árboles de decisión de Microsoft genera un modelo de minería de

datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se

representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de

entrada tiene una correlación significativa con la columna de predicción. La forma en que el

algoritmo determina una división varía en función de si predice una columna continua o una

columna discreta.

El algoritmo de árboles de decisión de Microsoft utiliza la selección de características

para guiar la selección de los atributos más útiles. Todos los algoritmos de minería de datos de

Analysis Services utilizan la selección de características para mejorar el rendimiento y la calidad

del análisis. La selección de características es importante para evitar que los atributos

irrelevantes utilicen tiempo de pro