PDF de programación - Bases de datos Biológicas

Volver

Filtrado por el tag: scroll

<<>>

Bases de datos Biológicas

Publicado el 3 de Mayo del 2018

1.454 visualizaciones desde el 3 de Mayo del 2018

2,5 MB

28 paginas

Creado hace 19a (22/01/2007)

Bases de datos Biológicas
Bases de datos Biológicas

Andrés Pinzón
Andrés Pinzón

Centro de Bioinformática
Centro de Bioinformática
Instituto de Biotecnología
Instituto de Biotecnología

Universidad Nacional de Colombia
Universidad Nacional de Colombia

¿Por qué las bases de datos ?
¿Por qué las bases de datos ?

● Crecimiento exponencial de los datos biológicos

● Datos (secuencias, 3D estructuras, análisis gel 2D, MS

análisis….) no son publicados en revistas, pero si en
bases de datos

● Son usadas en investigación biológica, como lo eran la

revistas científicas !

● Biólogos dependen de los computadores para

almacenar, organizar, buscar, manipular, y recuperar
los datos

● Libre Acceso es clave

● Base de todas las herramientas bioinformáticas

¿Qué es una base de datos ?
¿Qué es una base de datos ?

● Una colección

● estructurada
● De fácil búsqueda (indexada) -> tabla de contenido
● Actualizada periódicamente (release) -> Nuevas ediciones
● Referencias cruzadas (hipervínculos)

-> vínculos con otras DB

● Incluye la herramientas (software) para acceso,

actualización, inserción, borrado…. en la DB

● Almacena datos: Texto plano (flat files) Tablas vinculadas

(bases de datos relacionales)

DB: Texto plano « flat file »
DB: Texto plano « flat file »

Base de datos de estudiantes:

(texto plano, 3 entradas)

Código: 183023
Nombre: Julián
Apellido : Pulecio
Cursos: 19003-01, 21001-01
Email: [email protected]
//
//
Código: 183024
Nombre: Sonia
Apellido : Cuartas
Cursos : 19003-01, 17001-01
Email: [email protected]
//
Código: 183025
Nombre: Jaime
Apellido : Moreno
Cursos : 19003-01
Email: [email protected]
//

● Facil de manejar: todas las entradas de pueden ver al

tiempo !

Bases de datos « relacionales »
Bases de datos « relacionales »

Curso

1900303

1900303

1900303

1700101

2100101

Código

183023

183024

182425

183024

183023

Alumno

Gutiérrez

Cuartas

Moreno

Código

183023

183024

182425

Curso

1900301

1700101

2100101

Nom.Curso

Bioinformática

Bioquímica Avanzada

Análisis Molecular

Fácil: manejo y selección de la salida

Algunas estadísticas
Algunas estadísticas

● Más de 1000 bases de datos
● Generalmente accesibles a través de WEB
● Biohunt: http://www.expasy.org/BioHunt/
● Amos’ links: www.expasy.ch/alinks.html

● Tamaño variable: 100Kb a 10Gb

● DNA: > 10 Gb
● Proteinas: 1 Gb
● Estructuras 3D : 5 Gb
● Otras: Pequeñas

Históricamente las bases de datos de proteínas
Históricamente las bases de datos de proteínas
preceden a las de DNA.
preceden a las de DNA.

● Atlas de secuencias y estructuras protéicas (1965).
● PIR (1997).

Dr. Margaret Oakley Dayhoff

(1925-1983)

http://www.dayhoff.cc/MODAtlasSummary.ht
ml

GenBank
GenBank

DDBJ
DDBJ

European Molecular Biology (EMBL)
European Molecular Biology (EMBL)

1982
1982

International Collaboration of DNA sequence Databases
International Collaboration of DNA sequence Databases

Bases de datos primarias y secundarias
Bases de datos primarias y secundarias

Primarias: resultados experimentales sin curaduria.
Secundarias: derivadas de las primarias, curadas.

n contienen la secuencia, comentarios, referencias de la

literatura, notas sobre experimentos

n Derivadas de la integracion de las herramientas de cómputo

y conocimiento biológico
n por ejemplo, genes conocidos y predichos

• Registros añadidos solo despues de verificar su precision y

las anotaciones

• Ejemplo :

SWISS-PROT, OMIM, RefSeq, LocusLink

EMBL-BANK
EMBL-BANK

● Release 86 on 28-FEB-
2006.

● 69,783,593 entries.

● 126,401,347,060
nucleotides,of which
13,313,896 entries
(65,362,911,476
nucleotides) are WGS
(whole genome shotgun)
data.

● The release 86 files total
61 GB compressed.

EMBL-BANK (Tools)
EMBL-BANK (Tools)

UNIPROT
UNIPROT

Uniprot Knowledge Base
UniprotKB/Swissprot
UniprotKB/TrEMBL

Uniprot reference
Clusters
Clusters a partir de
UniprotKB y Uniparc
(Uniref100, Uniref90,
Uniref50).

Uniprot Archive
Todas las secuencias
protéicas conocidas, no
redundante.

UNIPROT-SWISSPROT
UNIPROT-SWISSPROT

Anotación:
Anotación:

● Function(s) of the protein
● Post-translational modification(s). For example carbohydrates,
● phosphorylation, acetylation, GPI-anchor, etc.
● Domains and sites. For example calcium binding regions, ATP-
binding sites,
● zinc fingers, homeobox, kringle, etc.
● Secondary structure
● Quaternary structure. For example homodimer, heterotrimer, etc.
● Similarities to other proteins
● Disease(s) associated with deficiencie(s) in the protein
● Sequence conflicts, variants, etc.

National Center for Biotechnology Information
National Center for Biotechnology Information

NCBINCBI

Establecido en 1988. Es un
recurso nacional
(USA) en
información
biológica
molecular, el NCBI crea bases
de datos públicas, lleva a
cabo
investigaciones en
biología
computacional,
desarrolla herramientas de
software para el análisis
de información genómica, y
da a conocer la información
biomédica – todo esto con el
propósito de mejorar nuestro
entendimiento acerca de
los procesos moleculares
que afectan la salud y la
enfermedad en los seres
humanos.

NCBI- ENTREZ
NCBI- ENTREZ

NCBI- GENBANK
NCBI- GENBANK

Base de datos pública de todas las secuencias DNA disponibles
Base de datos pública de todas las secuencias DNA disponibles

de

entradas

59,750,386,305 bases en
54,584,635
secuencias
en la división tradicional de
GenBank y
63,183,065,091 bases
en 12,465,546 entradas en la
división WGS
(Febrero de
2006).

Protein Data Bank (PDB)
Protein Data Bank (PDB)
Base de datos de estructuras
Base de datos de estructuras
tridimensionales de proteínas
tridimensionales de proteínas

● Cristalografia de

Rayos X.

● 41136 estructuras
(Enero 16 de 2007)

● Archivo de

coordenadas.

http://www.rcsb.org/pdb/

Sequence Retrieval System
Sequence Retrieval System

http://srs.ibun.unal.edu.co:8080/srs81/
http://srs.ibun.unal.edu.co:8080/srs81/

Más bases de datos I
Más bases de datos I

Más bases de datos II
Más bases de datos II

Más bases de datos III
Más bases de datos III
Bases de datos que no pueden ser
Bases de datos que no pueden ser

clasificadas.
clasificadas.

ReBase (enzimas restricción ),
RepBase (repeticiones)
TRANSFAC (factores de transcripción),
CarbBank, GlycoSuiteDB (Azucares ligados),
Proteína-proteína interacción db (DIR, ProNet, Interact),
Proteasa db (MEROPS), patentes en biotecnología db, etc.;

Base de datos de polimorfismos

dbSNP
dbSNP

genéticos

Consta de:
● SNPs: single nucleotide polymorphism
● DIPs: deletion insertion polymorphisms.
● SSRs: short tandem repeats.

Cada entrada incluye:
● Contexto.
● Frecuencia del polimorfismo.
● Métodos experimentales para su
obtención.

Para tener en cuenta...
Para tener en cuenta...

● Cual es la mejor DB para análisis de secuencia?
● Cual tiene la mejor calidad de datos ?
● Cual es la más completa ?
● Cual es la más actualizada ?
● Cual es la menos redundante ?
● Cual es la más indexada (permite búsquedas complejas) ?
● Cual es la que responde más rápido ?

● DB: Muchos errores (Anotaciones automáticas)!
● No todas las DB estan disponibles en todos los servidores
● La frecuencia de actualización es diferente en los distintos servidores;
creación de db_new entre releases (ejemplo: EMBLnew; TrEMBLnew….)