строки букв фактора - PullRequest
       2

строки букв фактора

0 голосов
/ 27 сентября 2018

Я пытаюсь использовать rowSums для подсчета количества случаев, когда нуклеотид присутствует в наборе образцов.

Размер моего df составляет 37 000 000 строк x 52 столбца.

Короткий пример:

Chromosome,Position,Allele1,Allele2,Sample1,Sample2,Sample3,Sample4
1,1,T,A,T,T,T,A

Я хотел бы создать новый столбец с количеством раз, которое значение столбца Allele1 наблюдалось в этой строке, исключая столбцы Allele1 и Allele2.

Я пробовал следующее, но безуспешно:

df$Allele1_counts <- rowSums(df[-4] == df$Allele1)

Следует отметить, что Allele1 и Allele2 - это факторы с 4 возможными уровнями (ACGT), и каждыйSample - это коэффициент с 5 возможными уровнями (ACGTN), где N - отсутствие чтения нуклеотида.

Ожидаемый результат в вышеприведенном примере будет иметь 3 при Allele1_counts и 1 при Allele2_counts.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...