PDF de programación - ProSA: una interfaz de Web basada en Perl para el análisis de secuencias

Imágen de pdf ProSA: una interfaz de Web basada en Perl para el análisis de secuencias

ProSA: una interfaz de Web basada en Perl para el análisis de secuenciasgráfica de visualizaciones

Actualizado el 21 de Marzo del 2018 (Publicado el 30 de Octubre del 2017)
1.920 visualizaciones desde el 30 de Octubre del 2017
1,0 MB
12 paginas
Creado hace 20a (27/01/2004)
ProSA: una interfaz de Web basada en Perl para
el análisis de secuencias

Mauricio Herrera Cuadra
[email protected]

1. Introducción

1.1 El análisis de secuencias y su importancia

La información funcional y hereditaria de un organismo se encuentra almacenada en moléculas de DNA,
RNA y proteínas, todas estas macromoléculas son cadenas lineales compuestas de moléculas más
pequeñas. Estas macromoléculas son ensambladas a partir de un alfabeto fijo de compuestos químicos
bien conocidos: el DNA está formado por cuatro desoxirribonucleótidos, el RNA está formado por
cuatro ribonucleótidos y las proteínas están formadas por 20 aminoácidos. Debido a que estas
macromoléculas son cadenas lineales de compuestos definidos, pueden ser representadas como
secuencias de símbolos. Estas secuencias pueden ser entonces comparadas para encontrar similitudes
que sugieran que las moléculas están relacionadas por su forma o función.

Es importante recordar que una secuencia biológica (DNA, RNA o proteína) posee una función química,
pero cuando esta es reducida a un código de letras sencillas funciona también como una etiqueta única,
casi como un código de barras. Desde el punto de vista de la tecnología de la información, la
información de las secuencias es invaluable. La etiqueta de la secuencia puede ser aplicada a un gen, su
producto, su función, su rol en el metabolismo celular, etc.


Figura 1. Posible información asociada a un solo gen




Sin embargo, la cuestión más importante acerca de estas etiquetas, es que no solamente identifican un
gen particular; también contienen patrones biológicamente significativos, que permiten comparar
diferentes etiquetas, conectar información, y hacer inferencias. Así que no solamente las etiquetas
pueden conectar toda la información acerca de un gen, éstas pueden servir para conectar información
sobre genes que son ligera o drásticamente diferentes en su secuencia.






Los datos de las secuencias de genes son el más abundante tipo de información, y existe un gran
conjunto de métodos y herramientas computacionales que pueden ayudar a analizar los patrones
contenidos en dicha información. La comparación de secuencias de genes, o análisis de secuencias
biológicas, es uno de los procesos utilizados para comprender la evolución de las secuencias. Es una
disciplina importante dentro de la biología computacional y la bioinformática.

1.2 La investigación biológica a través de la World Wide Web

La Internet ha cambiado completamente la forma en que los científicos buscan e intercambian
información. La información que antes era comunicada en papel ahora es digitalizada y distribuida a
partir de bases de datos centralizadas, las revistas ahora son publicadas “en línea”, y casi cualquier grupo
de investigación posee un Sitio Web que ofrece de todo, desde publicaciones hasta descargas de
software y servicios automatizados de procesamiento de datos.

Los científicos utilizan los servicios Web en Internet para la mayoría de los análisis de datos hoy en día.
Esto es debido a su accesibilidad, interfaz simple de documentos y formularios, y frecuentemente
servicios gratuitos que proveen muchas herramientas de análisis y bases de datos actualizadas. Aún
cuando las interfaces de Web para los análisis de biología molecular no siempre son la mejor opción, si
éstas son capaces de realizar el trabajo, son preferibles a un programa ejecutándose bajo algún sistema
operativo específico.

La mayoría de los usuarios encuentran problemas al utilizar programas para el análisis de secuencias. No
solamente son difíciles de aprender debido a los parámetros, sintaxis y semántica, sino a que muchos son
diferentes. Debido a esto, los programadores se han dedicado a construir interfaces de Web que
simplifiquen el aprendizaje y utilización de dichos programas, un claro ejemplo de dicha tendencia son
interfaces como: Virtual PCR y WebPHYLIP. Inclusive se han desarrollado sistemas avanzados, tales como:
Pise, que permiten la generación de interfaces de Web a partir de programas de biología molecular más
sencillos.

1.3 La base de datos PROSITE

Un motivo es una región o porción de una secuencia de proteína que posee una estructura específica y
es funcionalmente significativa. Las familias de proteínas a menudo son caracterizadas mediante uno o
más de tales motivos. La detección de motivos en proteínas es un problema importante puesto que los
motivos portan y regulan varias funciones, y la presencia de motivos específicos puede ayudar a clasificar
una proteína.

PROSITE es una colección de descriptores de motivos dedicada a la identificación de familias de
proteínas y dominios. Los descriptores de motivos utilizados en PROSITE son patrones o perfiles, los
cuales han sido derivados a partir de alineamientos múltiples de secuencias homólogas. Esto proporciona
a estos descriptores de motivos la notable ventaja de identificar relaciones distantes entre secuencias que
hubieran pasado inadvertidas mediante alineamiento simple de secuencias. Los patrones y perfiles
poseen tanto ventajas como desventajas, los cuales definen su área de aplicación.

PROSITE es un método para determinar cual es la función de proteínas no caracterizadas que han sido
traducidas de secuencias de cDNA o DNA genómico. Esta base de datos está elaborada de tal forma que
con herramientas computacionales apropiadas, pueda ser rápido y factible el identificar a qué familia
conocida de proteínas (si la hay) pertenece una nueva secuencia. En algunos casos, la secuencia de una
proteína desconocida se encuentra lejanamente relacionada con cualquier proteína de estructura
conocida para poder detectar su semejanza por medio de alineamiento de secuencias completas. Sin
embargo, puede ser identificada por la presencia en su secuencia de un bloque particular de tipos de
residuos, diversamente conocidos como patrones, motivos, firmas, o huellas digitales. Estos motivos





sobresalen debido a los requerimientos particulares en la estructura de regiones específicas de una
proteína, los cuales pudieran ser importantes, por ejemplo, por sus propiedades de anclaje, o por su
actividad enzimática.

PROSITE se encuentra disponible como una serie de archivos de texto que proveen los datos, además de
documentación. El sitio de PROSITE (http://www.expasy.org/prosite/) está provisto de una interfaz de
usuario que permite indagar en la base de datos y examinar la documentación. La base de datos también
puede obtenerse para instalación local a través del sitio FTP de PROSITE. Su utilización es gratuita para
usuarios no comerciales.

1.4 Perl y su aplicación en Bioinformática

Una gran parte de la Biología Computacional consiste de tareas frecuentes de procesamiento de textos,
tales como la manipulación de cadenas, concordancia de expresiones regulares, traducción de archivos,
e interconversión de formato de datos. Por consiguiente, muchos desarrolladores en la comunidad
bioinformática hacen uso extenso del lenguaje de programación Perl, el cual sobresale en dichas tareas.

Perl es popular entre los biólogos debido a su carácter práctico. La información biológica en las
computadoras tiende a estar organizada en archivos de texto o en bases de datos relacionales.
Cualquiera de estas fuentes de datos es fácil de manejar con programas en Perl. Perl se ha convertido en
una especie de fenómeno en el área, puesto que muchos biólogos lo encuentran como un lenguaje fácil
de aprender que posee muchas de las herramientas que ellos necesitan: en particular su soporte para el
procesamiento de textos y expresiones regulares lo hacen adecuado para tareas complejas de traducción
de textos (comunes en bioinformática).

Perl ha madurado de un simple lenguaje de “script” a un poderoso ambiente de programación tanto
para el estilo procedimental como para el orientado a objetos. Mientras que sigue siendo utilizado para
crear programas simples “desechables”, también se utiliza para diseñar aplicaciones complejas,
modulares, bien documentadas y mantenibles. La facilidad de utilización de Perl para una variedad de
tareas, tanto de alto nivel como para programación de CGI, es inigualable.

Un ejemplo sobresaliente del papel que ha jugado Perl en bioinformática, es cuando permitió a los
científicos del Proyecto Genoma Humano el intercambiar datos y comparar los resultados que se estaban
produciendo en 2 diferentes centros de secuenciamiento.

2. Justificación

El análisis de secuencias es una de las metodologías más utilizadas en bioinformática y recientemente en
biología molecular, por lo que es importante el desarrollo de herramientas computacionales adecuadas y
eficientes para llevar a cabo el trabajo.

Hoy en día es posible realizar muchos de estos análisis mediante herramientas en Internet que facilitan la
utilización y aprendizaje de estas metodologías, esto es a través de interfaces sencillas para los usuarios
nuevos y al mismo tiempo poderosas para los usuarios avanzados. La mayoría de estas herramientas
utilizan el lenguaje de programación Perl debido a su alta eficiencia para el procesamiento de textos y
desarrollo de aplicaciones Web.

La base de datos PROSITE es una de las más conocidas y utilizadas para la identificación de dominios
funcionales en secuencias de proteínas. Existen algunas herramientas que realizan búsquedas dentro de
esta base de datos, desafortunadamente estas búsquedas está
  • Links de descarga
http://lwp-l.com/pdf7318

Comentarios de: ProSA: una interfaz de Web basada en Perl para el análisis de secuencias (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad