PDF de programación - Recuperación de Información en Bases de Datos de tipo Bioinformático

Imágen de pdf Recuperación de Información en Bases de Datos de tipo Bioinformático

Recuperación de Información en Bases de Datos de tipo Bioinformáticográfica de visualizaciones

Publicado el 20 de Julio del 2017
1.242 visualizaciones desde el 20 de Julio del 2017
4,8 MB
145 paginas
Creado hace 16a (18/02/2008)
Centro de Investigación y de Estudios Avanzados

del Instituto Politécnico Nacional

Departamento de Computación

Recuperación de Información en Bases de Datos

de tipo Bioinformático

Tesis que presenta

Elizabeth Luna Luz

para obtener el grado de

Maestra en Ciencias en

la Especialidad de Ingeniería Eléctrica

Director de Tesis

Dr. Guillermo Morales Luna

México, D.F.

Febrero 2008

ii

Agradecimientos

A mi madre por ser tan cariñosa y comprensiva en todo momento, a mi padre por
darme la fortaleza que siempre necesité, a mis hermanos por darme muchos ánimos,
pero sobre todo a Dios por darme una familia tan maravillosa que siempre me ha
apoyado en todo momento. Gracias porque una vez más lo hemos logrado juntos.

Agradezco al Dr. Guillermo Morales Luna por ser mi director de tesis, su gran
paciencia y por todo el apoyo que me ha brindado, a los doctores Sergio Víctor Chapa
Vergara y Julio Isael Pérez Carreón por apoyarme y ser mis sinodales. A Sofy quien
siempre estuvo en todo momento para ayudarme.

También quiero agradecer a Ricardo por apoyarme en esas arduas desveladas, a
Agustín quien ha sido mi amigo durante muchos años y a esos momentos de dis-
tracción juntos, a Amilcar por sus buenos consejos, a mis amigos de la maestría con
quienes he compartido momentos inolvidables: Juan, Fabiola, Carlos, Victor y Edu-
ardo.

Agradezco al Departamento de Biología Celular del Cinvestav-IPN, al laboratorio
del Dr.Saúl Villa Treviño, en especial al Dr.Julio Isael Pérez Carreón por su gran
participación en el planteamiento del problema y su apoyo.

Por otra parte, agradezco a todos mis profesores del Departamento de Computación

por transmitirme sus valiosos conocimientos.

Finalmente, agradezco al Departamento de Computación del Cinvestav-IPN, que
ha sido mi segunda casa durante mi maestría, al personal que en él labora, y al
CONACyT y COMECyT por su financiamiento en mis estudios.

iii

iv

Resúmen

En la actualidad diversas instituciones tienen la necesidad de realizar la gestión
de su información. La gran cantidad de datos generados provoca la dificultad en su
manipulación, por lo que es relavante la formulación de aplicaciones que permitan la
recuperación de datos. El Departamento de Bíologia Celular del Cinvestav-IPN no es
ajeno a esta problemática. Por ejemplo, el laboratorio del Dr. Saúl Villa Treviño ha
generado abundante información concerniente a la genómica del cáncer.

Este documento aborda la problemática que enfrenta el Departamento de Bíologia
Celular al tratar de manipular la gran cantidad de información recabada para sus
investigaciones, la cual proviene de diversas bases biológicas. Por lo que se plantea
como solución la creación de un sistema de información capaz de analizar, manipular
y administrar dicha información con la finalidad de agilizar las investigaciones.

Este proyecto trata entonces de un sistema recuperador de información dotado de
reglas heurísticas de búsqueda de intereses y aplicaciones propios para datos generados
en Biología Celular, mediante el uso de formas de almacenamiento y lenguajes de
consulta estándares, así como de herramientas de sofware libre para la elaboración
de dicho recuperador. Así la presente tesis constituye el esfuerzo interdiciplinario
generado entre la interacción del Departamento de Computación y el de Biología
Celular del Cinvestav. Aporta una aplicación en beneficio de la investigación.

v

vi

Abstract

Nowadays, several institutions have needs for the management of their informa-
tion. The huge volume of data produced has resulted difficult to be handling. The
Departamento de Biología Celular del Cinvestav-IPN is no stranger to this problem.
This work addresses that problem focused in the Departamento de Biología Celular
where it is trying to manipulate a vast amount of information collected in its research,
which comes from various biological sources. This thesis sets as a solution the creation
of an information system which can analyze, manipulate and manage information in
order to help and improve research activity.

This project involves an Information Retrieval System (IRS) based on heuristics
rules and searching of own interest and applications for Biología Celular data, using
standards types of storage and query languages, as well as open software tools for the
development of this IRS.

vii

viii

Índice general

Índice de tablas

Índice de figuras

Índice de tablas

1. Introducción

1.1. Motivación y antecedentes . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Principales objetivos
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .

1.4. Organización de la tesis

1.3.1. Objetivos específicos

2. Bases de datos y recuperación de la información

2.1. Bases de datos relacionales . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Formas normales y optimización de bases de datos . . . . . . .
2.1.2. Beneficios de la normalización de datos . . . . . . . . . . . . .
2.2. Lenguajes de Consulta . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
2.2.1. QBE. Query By Example
2.2.2. Datalog. Database Logic
. . . . . . . . . . . . . . . . . . . . .
2.2.3. SQL. Structured Query Language . . . . . . . . . . . . . . . .
2.3. Manejador de bases de datos (DBMS) . . . . . . . . . . . . . . . . . .
2.3.1. Principales componentes de un DBMS . . . . . . . . . . . . .
2.3.2. Conectores a bases de datos . . . . . . . . . . . . . . . . . . .
2.4. Recuperación de Información . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .

2.4.1. Minería de datos
2.4.2. Dependencia funcional

3. Bioinformática

3.1. Bases de datos bioinformáticas . . . . . . . . . . . . . . . . . . . . . .
3.2. Reseña de los servidores existentes
. . . . . . . . . . . . . . . . . . .
3.3. Accesos a base de datos bioinformáticas y sus lenguajes de consulta .
3.3.1. Acceso a Medline . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2. Acceso a GenBank . . . . . . . . . . . . . . . . . . . . . . . . .

ix

X

X

XII

1
1
3
3
3
4

5
5
6
7
7
8
9
11
14
15
15
16
16
18

21
21
23
23
24
24

x

ÍNDICE GENERAL

3.3.3. Acceso a SwissProt . . . . . . . . . . . . . . . . . . . . . . .

26

4. Diseño de un sistema de recuperación de información

4.1. Herramientos de software . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1. Lenguaje de programación . . . . . . . . . . . . . . . . . . . .
4.1.2. Manejador de bases de datos . . . . . . . . . . . . . . . . . . .
4.2. Estructura del nuevo sistema . . . . . . . . . . . . . . . . . . . . . . .
4.2.1. Descripción de módulos del sistema . . . . . . . . . . . . . . .

31
31
31
32
33
33
4.3. Diagramas en Lenguaje Unificado de Modelado (UML) del nuevo sistema 36
36
38

4.3.1. Diagramas de casos de uso . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
4.3.2. Diagramas de actividades

5. Implementación del nuevo sistema

5.1. Algoritmos para explotación de información . . . . . . . . . . . . . .
5.1.1. Algoritmos para búsqueda de depencias funcionales . . . . . .
5.1.2. Funciones de similitud . . . . . . . . . . . . . . . . . . . . . .
5.1.3. Algoritmos para migración de información . . . . . . . . . . .

6. Resultados

6.1. Resultados del nuevo sistema

. . . . . . . . . . . . . . . . . . . . . .

7. Conclusiones y trabajo futuro

A. Glosario

49
49
52
64
86

91
91

111

115

B. Programas realizados

117
B.1. Disco compacto anexo a esta tesis . . . . . . . . . . . . . . . . . . . . 117
B.2. Estructura de directorios del sistema y programas realizados . . . . . 117
B.3. Instalación del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Referencias

126

Índice de figuras

2.1. La Minería de datos es multidiciplanaria. . . . . . . . . . . . . . . . .

3.1. Acceso a Medline . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. FTP GenBank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. FTP SwissProt
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. FTP SwissProt
3.5. FTP SwissProt
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6. FTP SwissProt

dadas las cotas de similitud.

4.1. Esquema de procesos internos de Java . . . . . . . . . . . . . . . . . .
4.2. Diagrama del módulo de eliminación de redundancia
. . . . . . . . .
. . . . . . . . . .
4.3. Diagrama del módulo de visualización de subtablas
4.4. Diagrama de casos de uso y actores del sistema desarrollado.
. . . . .
4.5. Diagrama de casos de uso: visualizar datos seleccionados y buscar datos
. . . . . . . . . . . . . . . . . . . . . . .
4.6. Diagrama de casos de uso para la búsqueda de dependencias fun-
. . . .
4.7. Diagrama de actividades para encontrar las dependencias funcionales.
4.8. Diagrama de actividades para crear la composición de tablas. . . . . .
4.9. Diagrama de actividades para eliminar redundancia de registros. . . .
4.10. Diagrama de actividades para seleccionar registros.
. . . . . . . . . .
4.11. Diagrama de actividades para búsqueda de datos similiares y visualizar
. . . . . . . . . . . . . . . . . . . . . .

cionales, composición de tablas y eliminación de redundancia.

solo los campos seleccionados.

17

25
26
27
28
29
30

32
34
34
39

42

43
44
45
46
47

48

6.1.
6.2.

6.3.

6.4.

6.5.

Interfaz para dar de alta una tabla . . . . . . . . . . . . . . . . . . .
Interfaz para visualizar los campos de una tabla eligiendo una tabla
dada de alta en el sistema. . . . . . . . . . . . . . . . . . . . . . . . .
Interfaz para visualizar los campos de una tabla eligien
  • Links de descarga
http://lwp-l.com/pdf5597

Comentarios de: Recuperación de Información en Bases de Datos de tipo Bioinformático (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad