PDF de programación - Análisis de datos de Expresión Genética mediante técnicas de Biclustering

Imágen de pdf Análisis de datos de Expresión Genética mediante técnicas de Biclustering

Análisis de datos de Expresión Genética mediante técnicas de Biclusteringgráfica de visualizaciones

Actualizado el 7 de Septiembre del 2017 (Publicado el 5 de Septiembre del 2017)
811 visualizaciones desde el 5 de Septiembre del 2017
1,0 MB
101 paginas
Creado hace 17a (23/06/2006)
Análisis de datos de Expresión Genética

mediante técnicas de Biclustering

Memoria del periodo de investigación

presentada por

D. Domingo Savio Rodríguez Baena

Directores:

Dr. D. José C. Riquelme Santos

Dr. D. Jesús S. Aguilar Ruiz

Sevilla, Mayo de 2006

Tabla de Contenido

1. Introducción

1.1. Planteamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Objetivos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Organización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. La Célula como sistema de información

2.1. La célula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Representación de los datos
2.3. La Producción de Proteínas
. . . . . . . . . . . . . . . . . . . . . . . . . .

1
1
2
3

5
5
7
9

3. Introducción a la Bioinformática

11
3.1. Origen histórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2. Definición de Bioinformática . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3. Principales areas de investigación . . . . . . . . . . . . . . . . . . . . . . . 15

4. La Expresión Genética

17
4.1.
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2. Los Microarrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.3. Clustering sobre genes

5. Aplicación de técnicas de Clustering sobre datos de expresión genética 21
5.1.
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2.1. Los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2.2. Medidas de Proximidad . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2.3. Tipos de Algoritmos de Clustering . . . . . . . . . . . . . . . . . . 25
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.3.1. Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.3.2. K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.3.3. Self-organizing Maps . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.3.4. Clustering Jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.3.5. Técnicas basadas en teoría de grafos
. . . . . . . . . . . . . . . . . 29
5.3.6. Clustering basado en modelos . . . . . . . . . . . . . . . . . . . . . 31
5.3.7. Clustering jerárquico basado en densidad . . . . . . . . . . . . . . . 32
5.3.8. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
. . . . . . . . . . . . . . . . . 33

5.4. Clustering sobre condiciones experimentales

i

ii

TABLA DE CONTENIDO

5.4.1. Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4.2. Clustering basado en la selección supervisada de genes
. . . . . . . 33
5.4.3. Clustering no supervisado y selección de genes informativos . . . . . 34
5.4.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

6. Introducción al Biclustering

6.1.
6.2. Definiciones y formulación del problema

39
Introducción: Clustering vs Biclustering . . . . . . . . . . . . . . . . . . . . 39
. . . . . . . . . . . . . . . . . . . 41
. . . . . . . . . . . . . . . 41
6.2.1. Matriz de expresión genética y Bicluster
6.2.2. Grafos bipartitos y matrices de datos . . . . . . . . . . . . . . . . . 42
6.2.3. Complejidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.2.4. Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.3. Clasificación de los algoritmos de Biclustering . . . . . . . . . . . . . . . . 43
6.3.1.
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.3.2. Tipos de biclusters . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.3.3. Estructuras de Biclusters . . . . . . . . . . . . . . . . . . . . . . . . 47
6.3.4. Técnicas de Biclustering . . . . . . . . . . . . . . . . . . . . . . . . 49
6.4. Algoritmos de Biclustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.4.1. Divide y vencerás . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.4.2. Combinación de Clustering sobre filas y columnas. . . . . . . . . . . 51
6.4.3. Búsqueda voraz iterativa . . . . . . . . . . . . . . . . . . . . . . . . 55
6.4.4. Búsqueda exhaustiva . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.4.5.
Identificación de parámetros de distribución . . . . . . . . . . . . . 67
6.4.6. Búsqueda Estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

7. Propuesta de técnicas de Biclustering y métodos de evaluación

81
7.1.
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.2. Biclustering basado en proximidad local: patrones α . . . . . . . . . . . . . 82
7.2.1. Motivaciones y objetivos principales . . . . . . . . . . . . . . . . . . 82
7.2.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.2.3. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.2.4. Experimentos realizados . . . . . . . . . . . . . . . . . . . . . . . . 85
7.2.5. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.3. Biclustering basado en comportamiento . . . . . . . . . . . . . . . . . . . . 86
7.3.1. Motivaciones y objetivos principales . . . . . . . . . . . . . . . . . . 86
7.4. Herramientas de evaluación biológica de Clusters y Biclusters . . . . . . . . 88
7.4.1. Evaluación biológica de Biclusters . . . . . . . . . . . . . . . . . . . 88

Índice de Figuras

1.1. Sistema de información . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

6
2.1. Corte genérico de una célula . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2. La célula como Sistema de Información . . . . . . . . . . . . . . . . . . . .
2.3. La doble hélice
8
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Esquema de la síntesis de Proteínas en la célula . . . . . . . . . . . . . . . 10

3.1. Secuencia histórica de descubrimientos en genética desde Mendel hasta el

3.2.

Genoma humano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Imagen del libro Fasciculus Medicinae, de Johannes de Ketham, publicado
en 1491.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.3. Las 3 perspectivas principales de la Bioinformática: célula, individuo y

biodiversidad.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.1. Sección de un microarray.

. . . . . . . . . . . . . . . . . . . . . . . . . . . 18

. . . . . . . . . 40
6.1. Clusters y Biclusters de una matriz de expresión genética.
. . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.2. Distintos tipos de biclusters.
6.3. Posibles estructuras de biclusters.
. . . . . . . . . . . . . . . . . . . . . . . 47
6.4. Algoritmo de Cheng y Church . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.5. Ejemplo de desplazamiento en un bicluster de 3 genes . . . . . . . . . . . . 58
6.6. Ejemplo de escalado en un bicluster de 3 genes . . . . . . . . . . . . . . . . 59
6.7. Ejemplo del uso de autovalores y autovectores para detectar estructuras

similares a un tablero de ajedrez en las matrices de expresión genética . . . 71

7.1. Ejemplo de un patrón α. Podemos observar una banda, que oscila entre 0
y un α determinado, en la que los valores de expresión de los genes bajo un
sub-conjunto de condiciones experimentales presentan patrones similares
de comportamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

7.2. Porcentajes de genes de dos clusters que participan en pathways químicos

almacenados en la base de datos de Kegg . . . . . . . . . . . . . . . . . . . 88

iii

iv

ÍNDICE DE FIGURAS

Capítulo 1

Introducción

Lo poco que he aprendido carece de valor, comparado con lo que ignoro y no

desespero en aprender

R. Descartes.

1.1. Planteamiento

La informática es la ciencia que estudia todos los aspectos referentes a los sistemas de
información. Podemos definir un sistema de información como un conjunto de elementos
integrados y cooperantes entre sí cuyo objetivo común es el procesamiento de información
a partir de una fuente de datos y su posterior almacenamiento, uso y mantenimiento (ver
1.1). Este trabajo de investigación tiene como objetivo, a muy alto nivel, el estudio de un
sistema de información muy particular: aquel que se encuentra en todos los seres vivos,
cuya fuente de información es el material genético de las células y cuyo procesamiento,
uso, mantenimiento y copia son actividades que se realizan constantemente y que son
fundamentales para la vida.
Estos sistemas de información son estudiados por una nueva rama de la ciencia, la Bioin-
formática. Es un campo de estudio de difícil definición, ya que comprende un gran abanico
de disciplinas en las que participan científicos de muy diversa índole, y además representa
a la revolución llevada a cabo en la biología molecular y la informática en el último siglo.
Se basa en el uso de bases de datos y algoritmos con el objetivo de analizar proteínas,
genes, y las colecciones completas de ácido desoxirribonucleico (ADN) de un organismo
(genoma).
Una de las disciplinas más importantes de la Bioinformática es el análisis de expresión
genética. El estudio de los datos de expresión es utilizado para responder cuestiones bi-
ológicas acerca de una gran variedad de organismos en una gran variedad de condiciones.
Es necesario encontrar técnicas que faciliten el estudio de grandes cantidades de datos de
este tipo y que obtengan como resultado información útil.
Una de las técnicas más utilizadas, relacionadas con la minería de datos, es el Clustering y,
más recientemente una variante, el Biclustering, sobre la cual se centra esta investigación.

1
  • Links de descarga
http://lwp-l.com/pdf6747

Comentarios de: Análisis de datos de Expresión Genética mediante técnicas de Biclustering (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad