Publicado el 25 de Agosto del 2017
1.095 visualizaciones desde el 25 de Agosto del 2017
6,5 MB
171 paginas
Creado hace 14a (01/12/2009)
UNIVERSIDAD NACIONAL DE MISIONES
Facultad de Ciencias Exactas, Químicas y Naturales
Tesis de grado Licenciatura en Sistemas de
Información
Minería de Datos aplicada al análisis de la
deserción en la Carrera de Analista en
Sistemas de Computación.
Autor: Asc. Jesús Germán Andrés PAUTSCH
Tutor: Mgter. David L. la Red Martínez
Co-Tutor: Lic. Luis Alfonso Cutro
Año: 2009
Minería de Datos aplicada al análisis de la deserción
en la Carrera de Analista en Sistemas de Computación.
Dedicatoria:
A mi familia,
por su ayuda y sacrificio, en el comienzo de mis estudios.
A mi amada esposa y a la pequeña Abril ,
por regalarme sus sonrisas y su ternura a pesar de mis ausencias.
A mi hermano,
quien me guía con su luz.
A los que están en camino.
Jesús Germán Andrés Pautsch
II
Minería de Datos aplicada al análisis de la deserción
en la Carrera de Analista en Sistemas de Computación.
Resumen
En los últimos años, la tasa mundial promedio de crecimiento del
sector informático fue del 20% anual, mientras que en la Argentina fue
menor al 8 % anual. Este porcentaje podría ser mayor si egresaran de
las universidades más profesionales informáticos, sobre todo de las
carreras a corto plazo que son las que las empresas más demandan. En
esta tesis de grado se realizó una Minería de Datos sobre el Cubo 04
Desgranamiento, exportado del Sistema de Gestión Académica SIU-
Guaraní, provistos por el Ministerio de Educación, Ciencia y Tecnología de
la Nación. Se ha experimentado con métodos Supervisados, como la
Clasificación y No Supervisados como es el Agrupamiento. El objetivo
principal fue maximizar la calidad que los modelos tienen para clasificar y
agrupar a los estudiantes, de acuerdo a sus características académicas,
factores sociales y demográficos, que han desertado de la Carrera
Analista en Sistemas de Computación de la Facultad de Ciencias Exactas,
Químicas y Naturales de la Universidad Nacional de Misiones. El proyecto
se desarrolló bajo la metodología de libre difusión Crisp-DM y con la
herramienta comercial IBM DB2 Warehouse (versión 9.5). Los resultados
obtenidos permitieron observar, no sólo los diferentes patrones de los
alumnos desertores, sino que también las características de los
estudiantes en actividad y egresados. La calidad de los modelos
obtenidos a través de la clasificación con árboles de decisión superó a la
técnica de agrupamiento a través de la generación de clústeres y ambas
han superado ampliamente lo planteado. Si bien los expertos en el
estudio de la deserción universitaria han elogiado la capacidad que los
modelos tienen para distinguir a cada tipo de alumno, han planteado la
necesidad de contemplar más variables socio económicas en el estudio
de la deserción.
Palabras Claves: Minería de datos, clasificación, agrupamiento,
almacenes de datos, descubrimiento de conocimiento, deserción
universitaria, perfiles de alumnos.
Jesús Germán Andrés Pautsch
III
Minería de Datos aplicada al análisis de la deserción
en la Carrera de Analista en Sistemas de Computación.
Abstract
During the last years, the world rate average of growth in the
computer sector was 20% annual, meanwhile in Argetina it was less
tham 8% annual. This percentage could be large if more computing
professionals would graduate from universities, especially from short
term carrers that are the most demanding ones from companies. In this
thesis a data mining on threshing Cube 04 was made, exported fron the
SIU-Guarani Academic Management System, provided by the National
Ministry of Education, Science and Technology. It has been tested with
Supervised methods, like Classification and No Supervised ones, like
Grouping. The main objective was to maximize the quality that these
models have to classify and group students, taking into account their
academic characteristics, social and demographic factors, who have
abandoned the career. The project was developed under Crisp - DM free
broadcast methodology and the commercial tool IBM DB2 Warehouse
(version 9.5). The final outcome allowed to observe, not only the
different patterns of deserter students, but also graduated and active
students' carachteristics. The quality of the obtained models through the
classification with Decision trees exceeded the grouping technique by
means of clusters generation and, both of them have got through what
has been planned. Although the experts on the topic have praised the
capacity that the models have in order to single out each kind of
students, they have stated the necessity of considering more socio
economic variables in the desertion study.
Keywords: Data mining, clasification, clustering, data wharehouses,
knowledge discovery, university desertion, students’ profile.
Jesús Germán Andrés Pautsch
IV
Minería de Datos aplicada al análisis de la deserción
en la Carrera de Analista en Sistemas de Computación.
Reconocimientos:
A mis tutores David y Alfonso por brindarme su tiempo y
conocimientos para el desarrollo del presente trabajo.
A las autoridades de la FCEQyN de la UNaM, por permitirme utilizar
los datos.
A todos los docentes de la carrera y organizadores de la
articulación, particularmente a los profesores Horacio Kuna y Marcelo
Marinelli por su permanente apoyo, colaboración responsable y
desinteresada, y a la profesora Clarita Abraham por su buena
predisposición en atendernos y contribuir a mejorar nuestros
conocimientos académicos.
Al Dr. Pablo Vain, al Lic. Horacio Schwiters y Lic. Aguirre por el
asesoramiento brindado como expertos en el dominio.
A Silvina por su ayuda en la revisión, corrección y traducción del
trabajo.
A todos mis alumnos, especialmente a Martín Rey y Cinthia Cuba.
A mis compañeros de trabajo del Departamento Estadísticas.
A mi familia por el apoyo brindado y a mi tía Elizabet por el
ejemplo de vida y sus sabios consejos.
A Daniela por darme esa voz de aliento cada vez que la necesito.
Jesús Germán Andrés Pautsch
V
Minería de Datos aplicada al análisis de la deserción
en la Carrera de Analista en Sistemas de Computación.
Índice
Capítulo 1:
Capítulo 2:
Capítulo 3:
5.8
5.9
Capítulo 4:
4.1
4.2
3.1
3.2
3.3
Introducción ........................................................ 14
Bases de Datos .................................................... 18
2.1 Definición ......................................................................... 18
2.2 Objetivos y Características .................................................. 18
2.3 Sistemas OLTP .................................................................. 19
Data Warehouse .................................................. 22
Definición ........................................................................ 22
Características y Objetivos ................................................. 22
Arquitectura de una Data Warehouse .................................. 24
3.3.1 Fuentes internas (OLTP) ................................................ 24
3.3.2 Fuentes externas ......................................................... 25
3.3.3 Consolidación (ETL) ...................................................... 25
3.3.4 Middleware ................................................................. 26
3.3.5 Data Mart ................................................................... 27
3.3.6 Aplicaciones ................................................................ 27
Sistemas OLAP ................................................... 30
Definición ........................................................................ 30
Diferencias entre OLTP y OLAP ........................................... 33
Capítulo 5: Minería de Datos (Data Mining) ........................... 36
Historia ........................................................................... 36
Tipos de Conocimiento ...................................................... 37
Definición ........................................................................ 38
Características y Objetivos ................................................. 39
Arquitectura .................................................................... 42
Tipos de Modelos .............................................................. 42
Etapas en la Minería de Datos ............................................ 43
5.7.1 Selección de Datos ....................................................... 43
5.7.2 Pre Procesamiento de Datos .......................................... 44
5.7.3 Extracción de Conocimiento ........................................... 45
5.7.4 Evaluación e Interpretación de Patrones .......................... 45
Algoritmos para la Extracción de Conocimiento ..................... 45
Metodologías ................................................................... 47
5.9.1 Metodología SEMMA ..................................................... 47
5.9.2 Metodología CRISP-DM ................................................. 49
5.9.3 Elección de la Metodología ............................................. 50
5.1
5.2
5.3
5.4
5.5
5.6
5.7
Capítulo 6:
Datos (KDD) 52
Descubrimiento del Conocimiento en Bases de
Definición y Objetivos ....................................................... 52
6.1
Etapas en el Proceso de KDD ....................
Comentarios de: Minería de Datos aplicada al análisis de la deserción en la Carrera de Analista en Sistemas de Computación (0)
No hay comentarios