Как вставить комплиментарную базу в геномный фрейм данных? - PullRequest
0 голосов
/ 15 октября 2019

Теперь у меня есть некоторые геномные данные, которые я взял в массив данных. Итак, как мы знаем, есть четыре основания - A, G, T и C. G и C дополняют друг друга, в то время как A и T дополняют друг друга. Итак, таблица, которая у меня есть, и столбец «gDNA» - это результат, который я хочу:

cDNA     region     strand    gDNA
c.58C>T  875487     +         875487C>T
c.87A>G  365412     -         365412T>C

Итак, условие состоит в том, что если цепочка положительна, то точное «C> T» будеткопируется в то время, как если нить отрицательна, A и G будут преобразованы в их дополнительные основания - T и C и наоборот. Я не знаю, как это сделать. Помогите мне, ребята.

1 Ответ

1 голос
/ 15 октября 2019

Конкатенация строк, заменяющих дополнительные символы, где нить не равна '+'

df['region'].astype(str) + \
df['cDNA'].where(df['strand'] =='+', \
                 df['cDNA'].replace('[A-G>]+$', regex=True) \
                           .replace({'A':'T', 'T':'A', 'C':'G', 'G':'C'}, regex=True))


0    875487C>T
1    365412T>C
dtype: object
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...