PDF de programación - Bases de datos Biológicas

Imágen de pdf Bases de datos Biológicas

Bases de datos Biológicasgráfica de visualizaciones

Publicado el 3 de Mayo del 2018
982 visualizaciones desde el 3 de Mayo del 2018
2,5 MB
28 paginas
Creado hace 17a (22/01/2007)
Bases de datos Biológicas
Bases de datos Biológicas

Andrés Pinzón
Andrés Pinzón

Centro de Bioinformática
Centro de Bioinformática
Instituto de Biotecnología
Instituto de Biotecnología

Universidad Nacional de Colombia
Universidad Nacional de Colombia



¿Por qué las bases de datos ?
¿Por qué las bases de datos ?

● Crecimiento exponencial de los datos biológicos

● Datos (secuencias, 3D estructuras, análisis gel 2D, MS

análisis….) no son publicados en revistas, pero si en
bases de datos

● Son usadas en investigación biológica, como lo eran la

revistas científicas !

● Biólogos dependen de los computadores para

almacenar, organizar, buscar, manipular, y recuperar
los datos

● Libre Acceso es clave

● Base de todas las herramientas bioinformáticas



¿Qué es una base de datos ?
¿Qué es una base de datos ?

● Una colección



● estructurada
● De fácil búsqueda (indexada) -> tabla de contenido
● Actualizada periódicamente (release) -> Nuevas ediciones
● Referencias cruzadas (hipervínculos)

-> vínculos con otras DB

● Incluye la herramientas (software) para acceso,

actualización, inserción, borrado…. en la DB

● Almacena datos: Texto plano (flat files) Tablas vinculadas

(bases de datos relacionales)



DB: Texto plano « flat file »
DB: Texto plano « flat file »

Base de datos de estudiantes:

(texto plano, 3 entradas)

Código: 183023
Nombre: Julián
Apellido : Pulecio
Cursos: 19003-01, 21001-01
Email: [email protected]
//
//
Código: 183024
Nombre: Sonia
Apellido : Cuartas
Cursos : 19003-01, 17001-01
Email: [email protected]
//
Código: 183025
Nombre: Jaime
Apellido : Moreno
Cursos : 19003-01
Email: [email protected]
//

● Facil de manejar: todas las entradas de pueden ver al

tiempo !



Bases de datos « relacionales »
Bases de datos « relacionales »

Curso

19003­03

19003­03

19003­03

17001­01

21001­01

Código

183023

183024

182425

183024

183023

Alumno

Gutiérrez

Cuartas

Moreno

Código

183023

183024

182425

Curso

19003­01

17001­01

21001­01

Nom.Curso

Bioinformática

Bioquímica Avanzada

Análisis Molecular



Fácil: manejo y selección de la salida



Algunas estadísticas
Algunas estadísticas

● Más de 1000 bases de datos
● Generalmente accesibles a través de WEB
● Biohunt: http://www.expasy.org/BioHunt/
● Amos’ links: www.expasy.ch/alinks.html

● Tamaño variable: 100Kb a 10Gb

● DNA: > 10 Gb
● Proteinas: 1 Gb
● Estructuras 3D : 5 Gb
● Otras: Pequeñas



Históricamente las bases de datos de proteínas
Históricamente las bases de datos de proteínas
preceden a las de DNA.
preceden a las de DNA.

● Atlas de secuencias y estructuras protéicas (1965).
● PIR (1997).

Dr. Margaret Oakley Dayhoff

(1925-1983)

http://www.dayhoff.cc/MODAtlasSummary.ht
ml



GenBank
GenBank

DDBJ
DDBJ

European Molecular Biology (EMBL)
European Molecular Biology (EMBL)

1982
1982



International Collaboration of DNA sequence Databases
International Collaboration of DNA sequence Databases



Bases de datos primarias y secundarias
Bases de datos primarias y secundarias

Primarias: resultados experimentales sin curaduria.
Secundarias: derivadas de las primarias, curadas.

n contienen la secuencia, comentarios, referencias de la

literatura, notas sobre experimentos

n Derivadas de la integracion de las herramientas de cómputo

y conocimiento biológico
n por ejemplo, genes conocidos y predichos

• Registros añadidos solo despues de verificar su precision y

las anotaciones

• Ejemplo :

SWISS-PROT, OMIM, RefSeq, LocusLink



EMBL-BANK
EMBL-BANK

● Release 86 on 28-FEB-
2006.

● 69,783,593 entries.

● 126,401,347,060
nucleotides,of which
13,313,896 entries
(65,362,911,476
nucleotides) are WGS
(whole genome shotgun)
data.

● The release 86 files total
61 GB compressed.



EMBL-BANK (Tools)
EMBL-BANK (Tools)







UNIPROT
UNIPROT

Uniprot Knowledge Base
UniprotKB/Swissprot
UniprotKB/TrEMBL

Uniprot reference
Clusters
Clusters a partir de
UniprotKB y Uniparc
(Uniref100, Uniref90,
Uniref50).

Uniprot Archive
Todas las secuencias
protéicas conocidas, no
redundante.



UNIPROT-SWISSPROT
UNIPROT-SWISSPROT

Anotación:
Anotación:

● Function(s) of the protein
● Post-translational modification(s). For example carbohydrates,
● phosphorylation, acetylation, GPI-anchor, etc.
● Domains and sites. For example calcium binding regions, ATP-
binding sites,
● zinc fingers, homeobox, kringle, etc.
● Secondary structure
● Quaternary structure. For example homodimer, heterotrimer, etc.
● Similarities to other proteins
● Disease(s) associated with deficiencie(s) in the protein
● Sequence conflicts, variants, etc.



National Center for Biotechnology Information
National Center for Biotechnology Information

NCBINCBI

Establecido en 1988. Es un
recurso nacional
(USA) en
información
biológica
molecular, el NCBI crea bases
de datos públicas, lleva a
cabo
investigaciones en
biología
computacional,
desarrolla herramientas de
software para el análisis
de información genómica, y
da a conocer la información
biomédica – todo esto con el
propósito de mejorar nuestro
entendimiento acerca de
los procesos moleculares
que afectan la salud y la
enfermedad en los seres
humanos.







NCBI- ENTREZ
NCBI- ENTREZ



NCBI- GENBANK
NCBI- GENBANK

Base de datos pública de todas las secuencias DNA disponibles
Base de datos pública de todas las secuencias DNA disponibles

de

entradas

59,750,386,305 bases en
54,584,635
secuencias
en la división tradicional de
GenBank y
63,183,065,091 bases
en 12,465,546 entradas en la
división WGS
(Febrero de
2006).



Protein Data Bank (PDB)
Protein Data Bank (PDB)
Base de datos de estructuras
Base de datos de estructuras
tridimensionales de proteínas
tridimensionales de proteínas

● Cristalografia de

Rayos X.

● 41136 estructuras
(Enero 16 de 2007)

● Archivo de

coordenadas.



http://www.rcsb.org/pdb/



Sequence Retrieval System
Sequence Retrieval System



http://srs.ibun.unal.edu.co:8080/srs81/
http://srs.ibun.unal.edu.co:8080/srs81/



Más bases de datos I
Más bases de datos I



Más bases de datos II
Más bases de datos II



Más bases de datos III
Más bases de datos III
Bases de datos que no pueden ser
Bases de datos que no pueden ser

clasificadas.
clasificadas.

ReBase (enzimas restricción ),
RepBase (repeticiones)
TRANSFAC (factores de transcripción),
CarbBank, GlycoSuiteDB (Azucares ligados),
Proteína-proteína interacción db (DIR, ProNet, Interact),
Proteasa db (MEROPS), patentes en biotecnología db, etc.;







Base de datos de polimorfismos

dbSNP
dbSNP

genéticos

Consta de:
● SNPs: single nucleotide polymorphism
● DIPs: deletion insertion polymorphisms.
● SSRs: short tandem repeats.

Cada entrada incluye:
● Contexto.
● Frecuencia del polimorfismo.
● Métodos experimentales para su
obtención.











Para tener en cuenta...
Para tener en cuenta...

● Cual es la mejor DB para análisis de secuencia?
● Cual tiene la mejor calidad de datos ?
● Cual es la más completa ?
● Cual es la más actualizada ?
● Cual es la menos redundante ?
● Cual es la más indexada (permite búsquedas complejas) ?
● Cual es la que responde más rápido ?

● DB: Muchos errores (Anotaciones automáticas)!
● No todas las DB estan disponibles en todos los servidores
● La frecuencia de actualización es diferente en los distintos servidores;
creación de db_new entre releases (ejemplo: EMBLnew; TrEMBLnew….)
  • Links de descarga
http://lwp-l.com/pdf10817

Comentarios de: Bases de datos Biológicas (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad