Extracción de conocimiento en bases de
datos astronómicas
Memoria del periodo de investigación
presentada por
D. Miguel Ángel Montero Navarro
[email protected]
para optar al
Diploma de Estudios Avanzados
Director:
Dr. D. José C. Riquelme Santos
Tutores:
Dr. D. Roberto Ruiz Sánchez
Dr. D. Miguel García Torres
Sevilla, Junio de 2009
Índice general
Índice de figuras
Índice de tablas
1. Introducción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1. Planteamiento .
.
1.2. Objetivos generales .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Estructura de la memoria de investigación . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
2. Hipótesis y objetivos
.
Introducción .
.
.
.
.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.
2.2. La extracción de conocimiento . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Fase de Minería de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Representación de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5. Clasificación .
2.5.1. Naïve Bayes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2. Vecinos más cercanos
. . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.3. Árboles de decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6. Evaluación del rendimiento de un clasificador . . . . . . . . . . . . . . . . . .
2.6.1. Precisión .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.2. Validación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.3. Comparación del rendimiento . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7. Preparación de los datos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.1. Recopilación .
2.7.2. Limpieza . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.3. Transformación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.4. Reducción .
.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.8.1. Proceso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.8. Selección atributos
.
iii
iv
2
2
3
3
5
5
6
8
9
11
11
12
14
17
17
18
21
22
23
23
24
25
27
29
ii
ÍNDICE GENERAL
2.8.2. Medidas de evaluación de atributos
. . . . . . . . . . . . . . . . . . .
2.8.3. Conclusiones y tendencias . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. .
. .
. .
2.9. Objetivos
3. Trabajos relacionados
.
3.1.
.
.
.
.
.
3.2.
3.3. Cobertura del cielo .
.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introducción .
.
3.1.1. Definiciones
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2. Análisis espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3. Corrimiento al rojo . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Instrumentación del SDSS . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1. Cámara .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2. Espectrógrafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1. Cobertura fotométrica
. . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2. Cobertura espectroscópica . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Repositorio de datos científicos
. . . . . . . . . . . . . . . . . . . . .
3.4.2. Tipos de objetos celestes . . . . . . . . . . . . . . . . . . . . . . . . .
3.5. Estado del arte de la minería de datos aplicada a datos astronómicos . . . . . .
3.6. Experimentación .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.1. Preprocesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.2. Descripción de los experimentos . . . . . . . . . . . . . . . . . . . . .
3.6.3. Análisis de los resultados . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Extracción de datos .
3.7. Conclusiones
. .
. .
.
.
.
4. Conclusiones
Bibliografía
iii
30
31
31
33
33
34
37
39
40
40
42
45
45
45
46
47
51
53
53
57
58
60
62
64
67
Índice de figuras
2.1. Esquema General de KDD (Knowledge Discovery in Databases).
. . . . . . .
7
2.2. División de los datos en carpetas. . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.3. Proceso para validar los resultados al aplicar algoritmos de selección de atributos. 20
2.4. Fase de preparación de los datos. . . . . . . . . . . . . . . . . . . . . . . . . .
22
25
. . . . . . . . . . . . . . . . . . . . . . .
2.5. Reducción de un conjunto de datos.
2.6. Reducción de los datos en ambos sentidos: ejemplos y atributos.
. . . . . . . .
26
Imagen de los filtros colocados sobre la cámara del SDSS.
3.1. Respuesta en frecuencia de los diferentes tipos de filtros.
. . . . . . . . . . . .
3.2. Filtro óptico paso banda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Dispersión de la luz en un prisma.
. . . . . . . . . . . . . . . . . . . . . . . .
3.4. Espectros de emisión (a) y de absorcion (b) del hidrógeno.
. . . . . . . . . . .
3.5. Efecto de la velocidad relativa sobre los espectros. . . . . . . . . . . . . . . . .
3.6. Disposición de los sensores CCD en la cámara principal del SDSS . . . . . . .
3.7.
. . . . . . . . . . .
3.8. Curva de respuesta de los filtros ópticos utilizados en el SDSS.
. . . . . . . . .
3.9. Detalle espectrógrafo SDSS . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.10. Imágenes tomadas por la cámara del SDSS y espectros asociados.
. . . . . . .
3.11. Cobertura del cielo del SDSS en coordenadas galácticas.
. . . . . . . . . . . .
3.12. Esquema de una franja de observación (stripe).
. . . . . . . . . . . . . . . . .
3.13. Entorno de trabajo CasJob.
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.14. Esquema de la base de datos DR7 del SDSS. . . . . . . . . . . . . . . . . . . .
35
36
38
38
40
41
42
43
43
44
45
46
48
50
iv
Índice de tablas
3.1. Máximo de transmisión y ancho banda de filtros u, g, r, i, z. . . . . . . . . . . .
3.2. Versiones del catálogo de datos del SDSS.
. . . . . . . . . . . . . . . . . . . .
3.3. Clasificación morfológica según atributo type. . . . . . . . . . . . . . . . . . .
3.4. Clasificación espectral según el atributo specClass.
. . . . . . . . . . . . . . .
3.5. Clasificación de los objetos celestes según el atributo objType.
. . . . . . . . .
3.6. Consulta SQL para obtener datos de experimentación. . . . . . . . . . . . . . .
3.7. Atributos que intervienen en la consulta SQL de la tabla 3.6.
. . . . . . . . . .
3.8. Consulta SQL para obtener URL de ficheros FITS.
. . . . . . . . . . . . . . .
3.9. Líneas espectrales utilizadas en el SDSS para clasificación espectral. . . . . . .
3.10. Datos base de datos objeto de estudio.
. . . . . . . . . . . . . . . . . . . . . .
3.11. Equivalencia etiquetado SDSS y base de datos objeto de estudio.
. . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.12. Resultados experimentación.
3.13. Atributos seleccionados por los evaluadores CFS, CNS y CLS.
. . . . . . . . .
3.14. Atributos seleccionados por ClassifierSubsetEval con evaluador NB sobre Fil-
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
trosEspectros.
.
.
.
.
.
42
47
51
52
52
54
54
55
56
57
58
60
62
63
v
Capítulo 1
Introducción
1.1. Planteamiento
Conforme la implantación y potencia de los sistemas informáticos ha ido aumentando, lo ha
hecho también la cantidad de datos almacenados. Así la gestión y mantenimiento de grandes
bancos de datos supone una actividad cotidiana en muchas empresas y organismos públicos.
Ingentes cantidades de datos se encuentran almacenados en bases de datos procedentes de ac-
tividades del ámbito empresarial y público que se desarrollan en el día a día. La necesidad
de análisis de estos datos y extracción de conocimiento no implícito en los mismos de forma
automática derivó en el nacimiento de una nueva disciplina denominada KDD (Knowledge
Discovery in Data bases). Con el nacimiento de esta disciplina los datos pasan de ser el produc-
to generado por los diferentes procesos inherentes a la actividad desarrollada a ser la materia
prima, de forma que a partir de estas ingentes cantidades de datos se extrae conocimiento útil
que ayuda a tomar decisiones en los ámbitos de donde fueron extraídos los datos.
El proceso de KDD comprende diversas etapas, que van desde la obtención de los datos hasta la
aplicación del conocimiento adquirido en la toma de decisiones. Entre esas etapas, se encuentra
la que puede considerarse como el núcleo del proceso KDD y que se denomina Minería de
Datos o Data Mining (DM).
La astronomía ha estado ligada al ser humano desde la antigüedad y todas las civilizaciones han
tenido contacto con esta ciencia. En las últimas décadas, gracias a los avances tecnológicos, se
han desarrollado y planificado una serie de proyectos astronómicos con el fin de profundizar en
el conocimiento de los cuerpos celestes. Estos estudios han generado importantes cantidades de
2
1.2. Objetivos generales
3
datos que los astrónomos han tenido o tendrán que analizar.
En astronomía la informática supone una herramienta primordial para el desarrollo de las tareas
inherentes a los estudios desarrollados, utilizándose desde tres perspectivas:
Como herramienta tecnológica que agiliza los procedimientos de adquisición de datos.
Como soporte para la gestión y organización de la información.
Como metodología para el diseño de aplicaciones capaces de gestionar los datos, solu-
cionar problemas complejos y extraer conocimiento útil a partir de la información.
En el primer caso podríamos hablar de tecnología infor
Comentarios de: Extracción de conocimiento en bases de datos astronómicas (0)
No hay comentarios