Нормализация на конкретные строки кадра данных в R - PullRequest
0 голосов
/ 06 июня 2018

У меня есть датафрейм со многими столбцами и строками.Я хочу сделать следующее:

  • Возьмите все строки, которые НЕ содержат текст "phos" в столбце "id"
  • Нормализуйте по этим строкам (например, центрирование по медиане)на всех столбцах интенсивности с текстом «int_sam»
  • Используя коэффициент / значение нормализации, рассчитанный выше, затем вычтите (данные преобразованы в log2) в каждой строке, которая содержит текст «phos» в столбце «id»По столбцам (по образцу).

Большое спасибо заранее.У меня нет большого опыта в R, и я не статистик.Таким образом, простое объяснение, возможно, с кодом R будет очень полезным.Еще раз спасибо.

int_sam_1 = c("2421432", "24242424", "NA", "4684757849", "NA", "10485040", "NA", 
          "6849400", "40300", "NA", "NA", "NA", "556456466", "4646456466", "246464266", "4564242646")
int_sam_2 = c("NA", "5342353", "14532556", "43566", "46367367", "768769769", "797899", "NA", "NA", "NA", 
          "686899", "7898979", "678568", "NA", "68886", "488")
int_sam_3 = c("11351", "NA", "NA", "NA", "1354151345", "1351351354", "314534", "1535", "3145354", "4353455", 
          "324535", "3543445", "34535", "34535534", "NA", "NA")
id = c("phos", "acet phos", "acet", "acet", "acet", "acet meth phos", "phos", "phos", "phos", "phos", "acet", 
   "meth", "meth phos", "phos", "meth phos", "phos")
df = cbind.data.frame(int_sam_1, int_sam_2, int_sam_3, id)

1 Ответ

0 голосов
/ 06 июня 2018

попробуйте выполнить

ваши данные

int_sam_1 = c(2421432, 24242424, NA, 4684757849, NA, 10485040, NA, 
              6849400, 40300, NA, NA, NA, 556456466, 4646456466, 246464266, 4564242646)
int_sam_2 = c(NA, 5342353, 14532556, 43566, 46367367, 768769769, 797899, NA, NA, NA, 
              686899, 7898979, 678568, NA, 68886, 488)
int_sam_3 = c(11351, NA, NA, NA, 1354151345, 1351351354, 314534, 1535, 3145354, 4353455, 
              324535, 3543445, 34535, 34535534, NA, NA)
id = c("phos", "acet phos", "acet", "acet", "acet", "acet meth phos", "phos", "phos", "phos", "phos", "acet", 
       "meth", "meth phos", "phos", "meth phos", "phos")
df = cbind.data.frame(int_sam_1, int_sam_2, int_sam_3, id)

, поднабор столбцов без phos и вычисление глобальной медианы

df.sub <- df %>% filter(!grepl("phos",id))
df.median <- median(as.vector(as.matrix(df.sub[,1:3])),na.rm = T)

вычитая глобальную медиану из каждого значения в столбце 1-3 где у тебя фос

df <- df %>% 
mutate(int_sam_1=ifelse(grepl('phos',id),int_sam_1-df.median, int_sam_1)) %>% 
mutate(int_sam_2=ifelse(grepl('phos',id),int_sam_2-df.median, int_sam_2)) %>%
mutate(int_sam_3=ifelse(grepl('phos',id),int_sam_3-df.median, int_sam_3))
...