Я хочу сравнить необработанные данные геномной последовательности по 23andme и использовать для этого Python.
Я импортировал свои данные следующим образом:
import pandas as pd
import os
sample_1 = pd.read_csv('sample_1.txt', delimiter ='\t', dtype={"rsid": str, "chromosome": str, "position": int, "genotype": str})
sample_2 = pd.read_csv('sample_2_new.txt', delimiter ='\t', dtype={"rsid": str, "chromosome": str, "position": int, "genotype": str})
Теперь я хочу сохранить только Y-хромосомы для последующего сравнения BLAST. Поэтому мне нужны строковые записи одного столбца моего информационного кадра в виде непрерывной строки, подобной этой "AATTGCTT..."
.
y_1 = sample_1.loc[sample_5['chromosome'] == "Y"]
y_1_blast = y_1.to_string(columns = ["genotype"], header=False, index=False, index_names=False)
Поскольку выходные данные также содержали '\n'
, я попытался удалить разделитель с помощью:
y_1_blast.rstrip()
но это не работает. Я также получаю весь вывод в окружении ' ... '
, что заставляет меня задуматься, не в этом ли проблема.