Я пытаюсь использовать rowSums
для подсчета количества случаев, когда нуклеотид присутствует в наборе образцов.
Размер моего df составляет 37 000 000 строк x 52 столбца.
Короткий пример:
Chromosome,Position,Allele1,Allele2,Sample1,Sample2,Sample3,Sample4
1,1,T,A,T,T,T,A
Я хотел бы создать новый столбец с количеством раз, которое значение столбца Allele1
наблюдалось в этой строке, исключая столбцы Allele1
и Allele2
.
Я пробовал следующее, но безуспешно:
df$Allele1_counts <- rowSums(df[-4] == df$Allele1)
Следует отметить, что Allele1
и Allele2
- это факторы с 4 возможными уровнями (ACGT), и каждыйSample
- это коэффициент с 5 возможными уровнями (ACGTN), где N - отсутствие чтения нуклеотида.
Ожидаемый результат в вышеприведенном примере будет иметь 3 при Allele1_counts
и 1 при Allele2_counts
.