Переименование файлов в соответствии с заголовком fasta - PullRequest
0 голосов
/ 05 июля 2018

Я скачал 240 геномов из NCBI, и при загрузке они получают имя файла в соответствии с их номерами сборки. Я хотел бы переименовать файлы в соответствии с названием вида, а не номером сборки, поскольку это значительно облегчит интерпретацию данных.

Я знаю немного (очень мало) Python, и я действительно не смог выбраться из этой проблемы.

Итак, я хотел бы написать цикл, который входит в каждый файл в моей папке и перезаписывает имя файла в соответствии с заголовком fasta

Пример имени файла: GCF_000014225.1_ASM1422v1_genomic.fna

Пример заголовка fasta:> NC_008228.1 Pseudoalteromonas atlantica T6c, полный геном

Очевидно, я был бы рад, если бы смог избавиться от NC_008228.1 и полного генома, но только заголовок fasta в качестве имени файла сделал бы мою жизнь намного проще (альтернатива - делать это вручную ... но я знаю, что может быть сделано с некоторой кодировкой)

Заранее большое спасибо!

1 Ответ

0 голосов
/ 05 июля 2018

Это, вероятно, выполнимо при использовании sys, но я думаю, bash - лучший ответ на вашу проблему. Что-то вроде:

for file in /dir/*; do
header=$(cat $file | egrep ">.*\w([a-zA-z]\w[a-zA-z])\w.*)")
mv $file $header.fa
done
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...