Unix - Duda proyecto con comandos GAWK

 
Vista:
sin imagen de perfil

Duda proyecto con comandos GAWK

Publicado por Nina (1 intervención) el 02/01/2021 14:23:09
Feliz año a todos!

Estoy realizando un proyecto con comandos GAWK, pero no lo controlo del todo. Tengo un archivo de datos BED (es un archivo txt ordenado de una forma concreta para ser tratado genómicamente, es decir, se trata como cualquier archivo txt). El archivo está formado por cuatro columnas, la primera se refiere a cromosomas, la segunda a los pares de bases en las que inicia un exón, la tercera a los pares de bases en los que finaliza un exón y la última es el nombre del gen en el que se haya el exón.

Estoy estudiando los cromosomas con más genes, los genes en los que hay más exones, los cromosomas en los que hay más exones, pero quiero hacer otras búsquedas y no sé muy bien como utilizar los comandos GAWK en los que tengo que basar mi proyecto. Las preguntas son las siguientes:

• ¿Cuántos genes contienen más de 100 exones?
No he conseguido que me devuelva el número de genes con más de 100 exones, pero sí he conseguido que me muestres los genes con más cromosomas mediante el siguiente código:

cat proyectofinal/cromosomas.bed | awk '{print $4}' | sort | uniq -c | sort -n -r | head -15

• ¿Cuáles son los 5 exones más largos?
• ¿Y los 5 exones más cortos?
• ¿Cuántos exones tienen un tamaño de 78 pares de bases?

No sé si alguien podrá echarme una mano.
Gracias de antemano.
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder