Introducción
Taller
Introducción a EMBOSS
Taller Caldum 2011
Izaskun Mallona
11 de julio de 2011
[email protected]
Introducción a EMBOSS
Introducción
Taller
1
Introducción
Desarrollo
Licencia GPL
Ventajas
Usos
2 Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
[email protected]
Introducción a EMBOSS
Introducción
Taller
Desarrollo
Licencia GPL
Ventajas
Usos
Publicación
Rice et al. (2001) EMBOSS: the European molecular biology open
software suite. Trends in genetics.
Impacto
Más de 2000 citas.
[email protected]
Introducción a EMBOSS
Introducción
Taller
Desarrollo
Licencia GPL
Ventajas
Usos
Origen
1988: nace EGCG. EMBnet y otros proporcionan una
alternativa al software comercial. Se emplea en el Sanger
Centre.
Distribución a más de 10000 usuarios de EMBnet situados en
150 plataformas de investigación. Problemas relacionados con
la licencia académica de las bibliotecas de GCG.
Desarrollo de una nueva generación de software, esta vez GPL.
Nace EMBOSS (European Molecular Biology Open Software
Suite).
Inclusión de elementos con otras licencias: Embassy.
[email protected]
Introducción a EMBOSS
Introducción
Taller
Desarrollo
Licencia GPL
Ventajas
Usos
Software libre
GPL (General Public License) es tipo de licencia copyleft que
permite la consulta del código fuente del software, su
distribución y que protege esta libertad de acceso y
modicación cuando se realizan cambios sobre el software
original.
Implicaciones: libre acceso y conocimiento exacto de qué
realiza cada aplicación (pues se conoce el código fuente
subyacente).
[email protected]
Introducción a EMBOSS
Introducción
Taller
Desarrollo
Licencia GPL
Ventajas
Usos
Embassy: elementos no GPL
PHYLIP (logenia); HMMER (análisis de secuencias mediante
modelos ocultos de Márkov); DOMAINATRIX, DOMALIGN,
DOMSEARCH, SIGNATURE, STRUCTURE (estructuras de
proteínas); VIENNA (estructuras de RNA).
[email protected]
Introducción a EMBOSS
Introducción
Taller
Desarrollo
Licencia GPL
Ventajas
Usos
Ventajas I
Diseño sólido que facilita la construcción de ujos de datos
robustos.
Diversidad de herramientas de análisis.
Soporte de cualquier formato de secuencias y muchos de
alineamientos y estructurales.
Biblioteca de funciones usuales de análisis de secuencias.
Bibliotecas de funciones accesorias: manejo de cadenas de
texto, búsqueda de patrones, enlace con bases de datos.
Gratuito.
[email protected]
Introducción a EMBOSS
Introducción
Taller
Desarrollo
Licencia GPL
Ventajas
Usos
Ventajas II
Código abierto.
Funciona en prácticamente cualquier UNIX, así como en
Microsoft Windows y MacOS.
Las interfaces de todos los programas son semejantes:
dominado uno, dominados todos.
Facilidad de integración en GUIs y ujos de trabajo dada esta
consistencia.
No hay límites arbitrarios en el tamaño de los datos a manejar
(sólo la que corresponde a la capacidad de cómputo de cada
máquina). Facilidad para gestionar la memoria
(programadores).
[email protected]
Introducción a EMBOSS
Introducción
Taller
Desarrollo
Licencia GPL
Ventajas
Usos
Aplicaciones: generalidades
Alineamiento de secuencias.
Búsqueda rápida de pautas en bases de datos.
Identicación de motivos proteicos, incluyendo el análisis de
dominios.
Análisis de ESTs.
Búsqueda de patrones en secuencias de nucleótidos (p.e. islas
CpG).
Detección de repeticiones simples o especícas de especie.
Análisis del uso de codones.
Representación gráca de datos para publicación.
Y mucho más...
[email protected]
Introducción a EMBOSS
Introducción
Taller
Desarrollo
Licencia GPL
Ventajas
Usos
Aplicaciones: ejemplos I
infoseq. Impresión de información sobre secuencias.
water. Alineamiento local del Smith-Waterman.
pepstats. Estadísticas sobre proteínas.
showfeat. Muestra las características de una secuencia.
palindrome. Búsqueda de palíndromes.
[email protected]
Introducción a EMBOSS
Introducción
Taller
Desarrollo
Licencia GPL
Ventajas
Usos
Aplicaciones: ejemplos II
eprimer3. Diseño de cebadores.
extractseq. Extracción de regiones de una secuencia.
marscan. Búsqueda de zonas MAR/SAR en ácidos nucleicos.
tfscan. Búsqueda de zonas de unión a factores de transcripción.
patmatmotifs. Compara una secuencia proteica con la base de
datos de motivos PROSITE.
abiview. Lee cheros ABI y recupera las secuencia.
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Índice
1
Introducción
Desarrollo
Licencia GPL
Ventajas
Usos
2 Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
La terminal y el texto plano
Trabajando con linux.
Se abre una terminal de texto en
Aplicaciones>Accesorios>Terminal (arriba a la izquierda).
Nos movemos mediante las teclas desplazamiento del teclado.
El manual se consulta escribiendo man clustalw; para salir se
escribe q.
La echa hacia arriba recupera la última orden dada.
El tabulador completa mágicamente las instrucciones tras
introducir sus primeros caracteres. Por ejemplo, si queremos
escribir la orden embossversion basta con escribir embossv y
darle al tabulador.
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
La terminal y el texto plano II
Trabajando con cheros de texto.
EMBOSS ni ninguna herramienta bioinformática lee cheros
.doc, .docx y semejantes.
Las archivos con secuencias y en general cualquier chero debe
ser texto plano.
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Codicación y traducción
5(cid:48) aactgcagtacgtaacgtca 3(cid:48)
5(cid:48) a.act.gca.gta.cgt.aac.gtc.a 3(cid:48)
5(cid:48) aa.ctg.cag.tac.gta.acg.tca 3(cid:48)
5(cid:48) aac.tgc.agt.acg.taa.cgt.ca 3(cid:48)
3(cid:48) ttg.acg.tca.tgc.att.gca.gt 5(cid:48)
3(cid:48) tt.gac.gtc.atg.cat.tgc.agt 5(cid:48)
3(cid:48) t.tga.cgt.cat.gca.ttg.cag.t 5(cid:48)
+3
+2
+1
-1
-2
-3
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Interfaz de Emboss
Escriba wossname en un terminal Unix
Complete la orden escribiendo protein y accederá a todas las
aplicaciones que contengan la palabra protein en su descripción.
Finds programs by keywords in their one-line
documentation
Keyword to search for: protein
SEARCH FOR 'PROTEIN'
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Incluyendo parámetros
No obstante la mayoría de programas de EMBOSS aceptan
parámetros. En el caso de wossname se solicita la inclusión de
parámetros escribiendo:
Escriba wossname -opt
Text to search for, or blank to list all programs:
protein
Use the expanded group names [N]:
Match all words in the search string [Y]: Y
Show keywords with program documentation [N]:
Output program details to a file [stdout]: myle
Format the output for HTML [N]: Y
Output only the group names [N]:
Output an alphabetic list of programs [N]:
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Índice
1
Introducción
Desarrollo
Licencia GPL
Ventajas
Usos
2 Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Lectura y escritura de secuencias
Escriba seqret
Reads and writes (returns) a sequence
Input (gapped) sequence(s): nudge.gb
Output sequence [seg_af203020s.fasta]: nudge.fasta
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Resumen de características de una secuencia
Escriba infoseq embossSequences.fasta
Displays some simple information about sequences
# USA
embl-id:XLRHODOP
Name
XLRHODOP
Accession
L07770
Type
N
Length
1684
GC
45.72
Description
X.laevis rhodopsin
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Traducción y búsqueda de ORFs
Escriba sixpack (también getorf, plotorf o transeq)
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Índice
1
Introducción
Desarrollo
Licencia GPL
Ventajas
Usos
2 Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Concepto
Comparación de dos o más secuencias para detectar sus zonas
de similitud.
La representación es mediante una matriz cuyas las
corresponden a secuencias distintas y las columnas a los
caracteres comparables de dichas secuencias.
Pueden insertarse espacios para alinear zonas similares
aledañas.
[email protected]
Introducción a EMBOSS
Introducción
Taller
Manos a la obra
Conversión ente formatos
Alineamiento de secuencias
Primer3
Búsqueda de pautas
Un ejemplo
HBA_HUMAN
HBB_HUMAN
HBA_HORSE
HBB_HORSE
MYG_PHYCA
LGB2_LUPLU
HBA_HUMAN
HBB_HUMAN
HBA_HO
Comentarios de: Introducción a EMBOSS (0)
No hay comentarios