Bases de datos Biológicas
Bases de datos Biológicas
Andrés Pinzón
Andrés Pinzón
Centro de Bioinformática
Centro de Bioinformática
Instituto de Biotecnología
Instituto de Biotecnología
Universidad Nacional de Colombia
Universidad Nacional de Colombia
¿Por qué las bases de datos ?
¿Por qué las bases de datos ?
● Crecimiento exponencial de los datos biológicos
● Datos (secuencias, 3D estructuras, análisis gel 2D, MS
análisis….) no son publicados en revistas, pero si en
bases de datos
● Son usadas en investigación biológica, como lo eran la
revistas científicas !
● Biólogos dependen de los computadores para
almacenar, organizar, buscar, manipular, y recuperar
los datos
● Libre Acceso es clave
● Base de todas las herramientas bioinformáticas
¿Qué es una base de datos ?
¿Qué es una base de datos ?
● Una colección
● estructurada
● De fácil búsqueda (indexada) -> tabla de contenido
● Actualizada periódicamente (release) -> Nuevas ediciones
● Referencias cruzadas (hipervínculos)
-> vínculos con otras DB
● Incluye la herramientas (software) para acceso,
actualización, inserción, borrado…. en la DB
● Almacena datos: Texto plano (flat files) Tablas vinculadas
(bases de datos relacionales)
DB: Texto plano « flat file »
DB: Texto plano « flat file »
Base de datos de estudiantes:
(texto plano, 3 entradas)
Código: 183023
Nombre: Julián
Apellido : Pulecio
Cursos: 19003-01, 21001-01
Email:
[email protected]
//
//
Código: 183024
Nombre: Sonia
Apellido : Cuartas
Cursos : 19003-01, 17001-01
Email:
[email protected]
//
Código: 183025
Nombre: Jaime
Apellido : Moreno
Cursos : 19003-01
Email:
[email protected]
//
● Facil de manejar: todas las entradas de pueden ver al
tiempo !
Bases de datos « relacionales »
Bases de datos « relacionales »
Curso
1900303
1900303
1900303
1700101
2100101
Código
183023
183024
182425
183024
183023
Alumno
Gutiérrez
Cuartas
Moreno
Código
183023
183024
182425
Curso
1900301
1700101
2100101
Nom.Curso
Bioinformática
Bioquímica Avanzada
Análisis Molecular
Fácil: manejo y selección de la salida
Algunas estadísticas
Algunas estadísticas
● Más de 1000 bases de datos
● Generalmente accesibles a través de WEB
● Biohunt: http://www.expasy.org/BioHunt/
● Amos’ links: www.expasy.ch/alinks.html
● Tamaño variable: 100Kb a 10Gb
● DNA: > 10 Gb
● Proteinas: 1 Gb
● Estructuras 3D : 5 Gb
● Otras: Pequeñas
Históricamente las bases de datos de proteínas
Históricamente las bases de datos de proteínas
preceden a las de DNA.
preceden a las de DNA.
● Atlas de secuencias y estructuras protéicas (1965).
● PIR (1997).
Dr. Margaret Oakley Dayhoff
(1925-1983)
http://www.dayhoff.cc/MODAtlasSummary.ht
ml
GenBank
GenBank
DDBJ
DDBJ
European Molecular Biology (EMBL)
European Molecular Biology (EMBL)
1982
1982
International Collaboration of DNA sequence Databases
International Collaboration of DNA sequence Databases
Bases de datos primarias y secundarias
Bases de datos primarias y secundarias
Primarias: resultados experimentales sin curaduria.
Secundarias: derivadas de las primarias, curadas.
n contienen la secuencia, comentarios, referencias de la
literatura, notas sobre experimentos
n Derivadas de la integracion de las herramientas de cómputo
y conocimiento biológico
n por ejemplo, genes conocidos y predichos
• Registros añadidos solo despues de verificar su precision y
las anotaciones
• Ejemplo :
SWISS-PROT, OMIM, RefSeq, LocusLink
EMBL-BANK
EMBL-BANK
● Release 86 on 28-FEB-
2006.
● 69,783,593 entries.
● 126,401,347,060
nucleotides,of which
13,313,896 entries
(65,362,911,476
nucleotides) are WGS
(whole genome shotgun)
data.
● The release 86 files total
61 GB compressed.
EMBL-BANK (Tools)
EMBL-BANK (Tools)
UNIPROT
UNIPROT
Uniprot Knowledge Base
UniprotKB/Swissprot
UniprotKB/TrEMBL
Uniprot reference
Clusters
Clusters a partir de
UniprotKB y Uniparc
(Uniref100, Uniref90,
Uniref50).
Uniprot Archive
Todas las secuencias
protéicas conocidas, no
redundante.
UNIPROT-SWISSPROT
UNIPROT-SWISSPROT
Anotación:
Anotación:
● Function(s) of the protein
● Post-translational modification(s). For example carbohydrates,
● phosphorylation, acetylation, GPI-anchor, etc.
● Domains and sites. For example calcium binding regions, ATP-
binding sites,
● zinc fingers, homeobox, kringle, etc.
● Secondary structure
● Quaternary structure. For example homodimer, heterotrimer, etc.
● Similarities to other proteins
● Disease(s) associated with deficiencie(s) in the protein
● Sequence conflicts, variants, etc.
National Center for Biotechnology Information
National Center for Biotechnology Information
NCBINCBI
Establecido en 1988. Es un
recurso nacional
(USA) en
información
biológica
molecular, el NCBI crea bases
de datos públicas, lleva a
cabo
investigaciones en
biología
computacional,
desarrolla herramientas de
software para el análisis
de información genómica, y
da a conocer la información
biomédica – todo esto con el
propósito de mejorar nuestro
entendimiento acerca de
los procesos moleculares
que afectan la salud y la
enfermedad en los seres
humanos.
NCBI- ENTREZ
NCBI- ENTREZ
NCBI- GENBANK
NCBI- GENBANK
Base de datos pública de todas las secuencias DNA disponibles
Base de datos pública de todas las secuencias DNA disponibles
de
entradas
59,750,386,305 bases en
54,584,635
secuencias
en la división tradicional de
GenBank y
63,183,065,091 bases
en 12,465,546 entradas en la
división WGS
(Febrero de
2006).
Protein Data Bank (PDB)
Protein Data Bank (PDB)
Base de datos de estructuras
Base de datos de estructuras
tridimensionales de proteínas
tridimensionales de proteínas
● Cristalografia de
Rayos X.
● 41136 estructuras
(Enero 16 de 2007)
● Archivo de
coordenadas.
http://www.rcsb.org/pdb/
Sequence Retrieval System
Sequence Retrieval System
http://srs.ibun.unal.edu.co:8080/srs81/
http://srs.ibun.unal.edu.co:8080/srs81/
Más bases de datos I
Más bases de datos I
Más bases de datos II
Más bases de datos II
Más bases de datos III
Más bases de datos III
Bases de datos que no pueden ser
Bases de datos que no pueden ser
clasificadas.
clasificadas.
ReBase (enzimas restricción ),
RepBase (repeticiones)
TRANSFAC (factores de transcripción),
CarbBank, GlycoSuiteDB (Azucares ligados),
Proteína-proteína interacción db (DIR, ProNet, Interact),
Proteasa db (MEROPS), patentes en biotecnología db, etc.;
Base de datos de polimorfismos
dbSNP
dbSNP
genéticos
Consta de:
● SNPs: single nucleotide polymorphism
● DIPs: deletion insertion polymorphisms.
● SSRs: short tandem repeats.
Cada entrada incluye:
● Contexto.
● Frecuencia del polimorfismo.
● Métodos experimentales para su
obtención.
Para tener en cuenta...
Para tener en cuenta...
● Cual es la mejor DB para análisis de secuencia?
● Cual tiene la mejor calidad de datos ?
● Cual es la más completa ?
● Cual es la más actualizada ?
● Cual es la menos redundante ?
● Cual es la más indexada (permite búsquedas complejas) ?
● Cual es la que responde más rápido ?
● DB: Muchos errores (Anotaciones automáticas)!
● No todas las DB estan disponibles en todos los servidores
● La frecuencia de actualización es diferente en los distintos servidores;
creación de db_new entre releases (ejemplo: EMBLnew; TrEMBLnew….)
Comentarios de: Bases de datos Biológicas (0)
No hay comentarios