Как создать цикл и / или функцию для разделения 200 столбцов (и создания 200 новых столбцов / переменных) на другой столбец, чтобы получить процент? - PullRequest
3 голосов
/ 20 сентября 2019

Как мне создать цикл и / или функцию для разделения 200 столбцов (и создания 200 новых столбцов / переменных) на другой столбец, чтобы получить процент?

Как мне сделать это в цикле такЯ могу сделать 200 столбцов?и как мне назвать имя столбца, чтобы это было старое имя столбца с "p_" перед ним?Возможно ли это?

Например, я пытаюсь сделать что-то подобное, но с 200 столбцами.

fans <- data.frame(
  population = c(1234, 5678, 2345, 6789, 3456, 7890,
                4567, 8901, 5678, 9012, 6789),
  bearsfans = c(123, 234, 345, 456, 567,678, 789, 890, 901, 135, 246),
  packersfans = c(11,22,33,44,55,66,77,88,99,100,122),
  vikingsfans = c(39, 49, 59, 61, 32, 22, 31, 92, 52, 10, 122))

print(fans)

attach(fans)

## create new columns which are the ratio of fans to population

fans$p_bearsfan = bearsfans/population
print(fans)


 Output:
 ##     population bearsfans packersfans vikingsfans p_bearsfan
 ##  1        1234       123          11          39 0.09967585
 ##  2        5678       234          22          49 0.04121169

Ответы [ 4 ]

1 голос
/ 20 сентября 2019

Мы можем напрямую разделить несколько столбцов на один столбец.Мы используем grep для выбора столбцов, которые заканчиваются на "fans", и используем эти имена для назначения новых столбцов.

cols <- grep("fans$", names(fans), value = TRUE)
fans[paste0("p_", cols)] <- fans[cols]/fans$population

fans
#   population bearsfans packersfans vikingsfans p_bearsfans p_packersfans p_vikingsfans
#1        1234       123          11          39     0.09968      0.008914      0.031605
#2        5678       234          22          49     0.04121      0.003875      0.008630
#3        2345       345          33          59     0.14712      0.014072      0.025160
#4        6789       456          44          61     0.06717      0.006481      0.008985
#5        3456       567          55          32     0.16406      0.015914      0.009259
#6        7890       678          66          22     0.08593      0.008365      0.002788
#7        4567       789          77          31     0.17276      0.016860      0.006788
#8        8901       890          88          92     0.09999      0.009887      0.010336
#9        5678       901          99          52     0.15868      0.017436      0.009158
#10       9012       135         100          10     0.01498      0.011096      0.001110
#11       6789       246         122         122     0.03624      0.017970      0.017970

Также в качестве примечания: Почему не рекомендуется использовать attach () в R, и что я должен использовать вместо этого?

1 голос
/ 20 сентября 2019
temp <- sapply(fans[-1], function(x) x / fans$population)
colnames(temp) <- paste0("p_", colnames(temp))
cbind(fans, temp)



population bearsfans packersfans vikingsfans p_bearsfans p_packersfans p_vikingsfans
1        1234       123          11          39  0.09967585   0.008914100   0.031604538
2        5678       234          22          49  0.04121169   0.003874604   0.008629799
3        2345       345          33          59  0.14712154   0.014072495   0.025159915
4        6789       456          44          61  0.06716748   0.006481072   0.008985123
5        3456       567          55          32  0.16406250   0.015914352   0.009259259
6        7890       678          66          22  0.08593156   0.008365019   0.002788340
7        4567       789          77          31  0.17276111   0.016860083   0.006787826
8        8901       890          88          92  0.09998877   0.009886530   0.010335917
9        5678       901          99          52  0.15868263   0.017435717   0.009158154
10       9012       135         100          10  0.01498003   0.011096316   0.001109632
11       6789       246         122         122  0.03623509   0.017970246   0.017970246
1 голос
/ 20 сентября 2019

Если вас устраивает суффиксное имя нового столбца (вместо префикса), это однострочный символ, использующий dplyr::mutate_at.Здесь я предполагаю, что все соответствующие столбцы заканчиваются словом "fans".

с суффиксами

fans %>% mutate_at(vars(ends_with("fans")), list(percent = ~.x / population))
#   population bearsfans packersfans vikingsfans bearsfans_percent
#1        1234       123          11          39        0.09967585
#2        5678       234          22          49        0.04121169
#3        2345       345          33          59        0.14712154
#4        6789       456          44          61        0.06716748
#5        3456       567          55          32        0.16406250
#6        7890       678          66          22        0.08593156
#7        4567       789          77          31        0.17276111
#8        8901       890          88          92        0.09998877
#9        5678       901          99          52        0.15868263
#10       9012       135         100          10        0.01498003
#11       6789       246         122         122        0.03623509
#   packersfans_percent vikingsfans_percent
#1          0.008914100         0.031604538
#2          0.003874604         0.008629799
#3          0.014072495         0.025159915
#4          0.006481072         0.008985123
#5          0.015914352         0.009259259
#6          0.008365019         0.002788340
#7          0.016860083         0.006787826
#8          0.009886530         0.010335917
#9          0.017435717         0.009158154
#10         0.011096316         0.001109632
#11         0.017970246         0.017970246

с префиксами

Чтобы преобразовать суффиксы в префиксы, требуется на следующем шаге

fans %>%
    mutate_at(vars(ends_with("fans")), list(percent = ~.x / population)) %>%
    rename_at(vars(ends_with("percent")), ~sub("(.+)_percent", "p_\\1", .x))
#   population bearsfans packersfans vikingsfans p_bearsfans p_packersfans
#1        1234       123          11          39  0.09967585   0.008914100
#2        5678       234          22          49  0.04121169   0.003874604
#3        2345       345          33          59  0.14712154   0.014072495
#4        6789       456          44          61  0.06716748   0.006481072
#5        3456       567          55          32  0.16406250   0.015914352
#6        7890       678          66          22  0.08593156   0.008365019
#7        4567       789          77          31  0.17276111   0.016860083
#8        8901       890          88          92  0.09998877   0.009886530
#9        5678       901          99          52  0.15868263   0.017435717
#10       9012       135         100          10  0.01498003   0.011096316
#11       6789       246         122         122  0.03623509   0.017970246
#   p_vikingsfans
#1    0.031604538
#2    0.008629799
#3    0.025159915
#4    0.008985123
#5    0.009259259
#6    0.002788340
#7    0.006787826
#8    0.010335917
#9    0.009158154
#10   0.001109632
#11   0.017970246
0 голосов
/ 20 сентября 2019

Данные

  fans <- data.frame(
  population = c(1234, 5678, 2345, 6789, 3456, 7890,
                 4567, 8901, 5678, 9012, 6789),
  bearsfans = c(123, 234, 345, 456, 567,678, 789, 890, 901, 135, 246),
  packersfans = c(11,22,33,44,55,66,77,88,99,100,122),
  vikingsfans = c(39, 49, 59, 61, 32, 22, 31, 92, 52, 10, 122))

Наивное решение

for (c in names(fans)[-1]){
  fans[[paste0("p_",c)]] <- fans[[c]] / fans[["population"]]
}
...