BioInformática - Trabajando con ficheros de filas y columnas en linux

 
Vista:
sin imagen de perfil
Val: 2
Ha mantenido su posición en BioInformática (en relación al último mes)
Gráfica de BioInformática

Trabajando con ficheros de filas y columnas en linux

Publicado por Andrés (1 intervención) el 27/03/2020 10:55:12
Buenos días,

Estoy trabajando con el fichero refGene.txt de varios genomas organizados en filas y columnas separadas de forma tabular. Cada línea de estos ficheros aporta información sobre un transcrito del genoma, de forma que el número total de líneas de cualquier columna corresponde con el número total de transcritos.

Existe una columna llamada name2 que corresponde con los genes asociados a cada transcrito. Como hay genes que expresan varios transcritos, en esta columna aparecen nombres de genes repetidos. Por consiguiente, el número total de genes de cualquier genoma sería la diferencia entre el total de genes que aparece en la columna name2 y el número de los que tienen más de un transcrito (repetidos).

Me piden el número de transcritos por cada gen (EN PROMEDIO). Matemáticamente tendría que dividir el número total de transcritos entre el número total de genes. No se como realizar esto a partir de las columnas ya que tendría que filtrar un subconjunto de names2 para luego operar con el.

¿Alguna idea?

Gracias de antemano,

Saludos
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder