Publicado el 28 de Junio del 2017
1.824 visualizaciones desde el 28 de Junio del 2017
4,5 MB
106 paginas
Creado hace 9a (26/06/2014)
Subsecretaría de Educación Superior
Dirección General de Educación Superior Tecnológica
Instituto Tecnológico de La Paz
Instituto Tecnológico de La Paz
INSTITUTO TECNOLÓGICO DE LA PAZ
DIVISIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN
MAESTRÍA EN SISTEMAS COMPUTACIONALES
BUSCADOR DE ARTÍCULOS CIENTÍFICOS APLICANDO
MINERÍA DE DATOS
TESIS
QUE PARA OBTENER EL GRADO DE
MAESTRO EN SISTEMAS COMPUTACIONALES
PRESENTA:
FRANCISCO REFUGIO ZAVALA HERNANDEZ
M.A.T.I. LUIS ARMANDO CARDENAS FLORIDO
DIRECTOR DE TESIS:
MIEMBROS DEL JURADO:
M.A.T.I. LUIS ARMANDO CARDENAS FLORIDO, ITESM
M.C. JESUS ANTONIO CASTRO, UNAM
M.S.C. ILIANA CASTRO LIERA, ITLP
LA PAZ, BAJA CALIFORNIA SUR, MÉXICO, JUNIO 2014.
Instituto Tecnológico de La Paz
Instituto Tecnológico de La Paz
Instituto Tecnológico de La Paz
AGRADECIMIENTO
A mi esposa Norma, por tu paciencia, compresión y sobre todo tu amor. Preferiste
sacrificar tu tiempo para que yo pudiera cumplir con este trabajo de tesis. Por tu bondad y
sacrificio me motivaste a ser una mejor persona para ti y para nuestros hijos, sin dudarlo puedo
decir que este trabajo de tesis lleva mucho de ti y que es gracias a ti, porque tú fuiste quien me
motivo a tomar la decisión de realizar esta maestría, gracias de todo corazón por estar siempre a
mi lado.
A mis queridos hijos Fernanda y Francisco, quienes son mi principal motor para esforzarme
día a día.
A mis padres, gracias a ustedes por su apoyo incondicional y el amor que me entregaron
día a día. Gracias por el hogar que formaron y los buenos valores que me inculcaron. Cada dia los
quiero más.
A mis asesores, por guiarme de excelente manera en el desarrollo de esta tesis, por su
paciencia, motivación y amistad, muchas gracias.
A mis amigos y familiares, por poder contar con su confianza y su apoyo incondicional.
Buscador de artículos científicos aplicando minería de datos
i
Instituto Tecnológico de La Paz
RESUMEN
Este trabajo presenta el desarrollo de un buscador de artículos científicos. Existe una gran
necesidad de herramientas que permitan a los investigadores buscar artículos científicos para
estar actualizados con los nuevos avances científicos. Este trabajo de tesis propone diseño y
arquitectura de un buscador de artículos científicos, el modelo está basado en procesos de la
minería de textos, procesamiento de lenguaje natural y la realización de mapeo del texto a los
conceptos de la antología UMLS para extender sus correspondientes hiperónimos y relaciones
asociativas.
La búsqueda de artículos con información relevante para el investigador, se inicia de procesar los
datos de los artículos científicos como son el título y el resumen. La arquitectura consiste en tener
una base de datos a actualizada con datos importantes de cada artículo, posteriormente realizar
una indexación utilizando minería de texto, procesamiento de lenguaje natural para determinar
las sentencias, las frases, las palabras y el tipo de palabras contenidas en cada resumen de un
artículo y adicionalmente los resultados se agregan términos UMLS para ofrecer mayor
información sobre los artículos encontrados.
Buscador de artículos científicos aplicando minería de datos
ii
Instituto Tecnológico de La Paz
ABSTRACT
This work presents the development of a search engine for scientific articles. There is a great need
of the tools that enable researchers to find scientific articles. This thesis proposes a design and
architecture searching scientific articles, the model is based on processes of text mining, natural
language processing and conducting mapping text to UMLS concepts to extend anthology
corresponding hypernyms and associative relationships.
The search for articles with relevant information for the researcher begins to process data from
scientific articles so items like the title and abstract. The architecture is to have a database up to
date with important information for each item , so perform indexing using text mining, natural
language processing to determine sentences , phrases , words and types of words contained in
each summary an article and further results UMLS terms are added to provide more information
about the items found.
Buscador de artículos científicos aplicando minería de datos
iii
Instituto Tecnológico de La Paz
CONTENIDO
AGRADECIMIENTO ............................................................................................................................... i
RESUMEN ............................................................................................................................................ ii
ABSTRACT ............................................................................................................................................iii
INDICE DE FIGURAS ............................................................................................................................ vii
INDICE DE TABLAS ............................................................................................................................. viii
CAPÍTULO 1: INTRODUCCIÓN .............................................................................................................. 2
Introducción .................................................................................................................................... 2
1.1
1.2
1.3
1.4
Antecedentes ...................................................................................................................... 3
Descripción del problema ................................................................................................... 3
Hipótesis .............................................................................................................................. 4
Objetivo general y específicos ............................................................................................. 5
1.5 Marco teórico ...................................................................................................................... 6
CAPÍTULO 2: ESTADO DEL ARTE .......................................................................................................... 9
2.1
Introducción ........................................................................................................................ 9
2.2
Etapas en el proceso de KDD ............................................................................................... 9
2.2.1
KDD y minería ............................................................................................................ 11
2.3 Minería de texto ................................................................................................................ 12
2.3.1
Principales dificultades .............................................................................................. 12
2.3.2
Etapas de minería de texto ....................................................................................... 14
2.3.3
Técnicas de minería de texto .................................................................................... 16
2.4 Procesamiento del lenguaje natural ....................................................................................... 17
2.4.1 Aplicaciones del procesamiento del lenguaje natural ......................................................... 17
2.4.1.1 Verificación ortográfica ..................................................................................................... 18
2.4.2 Verificación gramatical ......................................................................................................... 18
2.4.3 Técnicas generales ............................................................................................................... 18
2.4.3.1 Analizador léxico ........................................................................................................... 18
2.4.3.2 Eliminación de palabras vacías ...................................................................................... 19
2.4.3.3 Lematización ................................................................................................................. 19
2.4.3.4 Etiquetado ..................................................................................................................... 20
Buscador de artículos científicos aplicando minería de datos
iv
Instituto Tecnológico de La Paz
2.4.3.4 Análisis sintáctico .......................................................................................................... 23
2.5 Antologías ................................................................................................................................ 23
2.5.1 UMLS ................................................................................................................................ 23
CAPÍTULO 3: INVESTIGACIÓN ............................................................................................................ 26
Introducción .................................................................................................................................. 26
3.1 NCBI ......................................................................................................................................... 26
ENTREZ ...................................................................................................................................... 27
E-utilities ...................................................................
Comentarios de: BUSCADOR DE ARTÍCULOS CIENTÍFICOS APLICANDO MINERÍA DE DATOS (0)
No hay comentarios