Как правило, phylip - самый простой формат в филогенетике между различными программами. Существует строгий формат phylip и упрощенный формат phylip и т. Д. c ... t нелегко узнать, какой разделитель используется, пробел и / или возврат каретки.
Я думаю, что вы появляетесь чтобы оставить пробел между именем таксона (то есть меткой последовательности) и именем последовательности, а именно:
2. esv2
Формат Phylip отслеживает пространство между меткой и данными последовательности. В этом примере последовательность будет иметь длину 3 б.п. Использование "." как правило, не очень хорошая идея, а также. Целое число, по-видимому, не обозначает номер строки.
Другая проблема заключается в том, что вы можете / должны попытаться сохранить последовательность в той же строке, что и метка, и удалить возврат каретки, а именно.
esv2 TACGGAGGGTGCAAGCGTTATCCGGATTCACTGGGTTTAAAGGGTGCGTAGGTGGGTTGGTAAGTCAGTGGTGAAATCTCCGAGCTTAACTTGGAAACTGCCATTGATACTATTAATCTTGAATATTGTGGAGGTTAGCGGAATATGTCATGTAGCGGTGAAATGCTTAGAGATGACATAGAACACCAATTGCGAAGGCAGCTGGCTACACATATATTGACACTGAGGCACGAAAGCGTGGGGATCAAACAGG
Иногда возврат каретки работает (это может быть упрощенный формат phylip), в традиционном формате используется пробел "". Я всегда сохранял одинаковое количество пробелов, чтобы сохранить выравнивание ... не уверен, если это необходимо.
Примечание если имя таксона превышает 10 символов, вам понадобится смягченный формат phylip, и это Формат в любом случае, как правило, хорошая идея.
Окончательное решение, в котором все остальное терпит неудачу - это преобразовать в fasta, импортировать как fasta, а затем преобразовать в phylip. Если все это не сработает ... отправьте обратно, есть еще проблемы устранения
Формат Fasta удаляет заголовок "23 254", а затем каждая последовательность выглядит следующим образом:
>esv2
TACGGAGGGTGCAAGCGTTATCCGGATTCACTGGGTTTAAAGGGTGCGTAGGTGGGTTGGTAAGTCAGTGGTGAAATCTCCGAGCTTAACTTGGAAACTGCCATTGATACTATTAATCTTGAATATTGTGGAGGTTAGCGGAATATGTCATGTAGCGGTGAAATGCTTAGAGATGACATAGAACACCAATTGCGAAGGCAGCTGGCTACACATATATTGACACTGAGGCACGAAAGCGTGGGGATCAAACAGG
Там всегда есть возврат каретки между "> esv2" и последовательностью. Кроме того, «>» всегда присутствует в качестве префикса метки (названия таксона) без какой-либо точки. Вы можете просто конвертировать через reg-ex или "re" в Python. При использовании однострочного perl это будет код типа s/^([az]+[0-9]+)/>$1/g
. Я почти уверен, что это будет онлайн-сайт, который будет делать это.
Затем вы просто замените "phylip" на "fasta" в вашей команде импорта. После импорта вы просите Bio Python конвертировать в любой формат, который вам нужен, и с ним не должно возникнуть никаких проблем.