R переписывает цикл - PullRequest
       20

R переписывает цикл

0 голосов
/ 08 января 2020

В моем коде есть все oop, которые я хотел бы переписать, поэтому выполнение кода занимает немного меньше времени, чтобы конкурировать. Я знаю, что вы всегда должны избегать циклов в коде, но я не могу придумать другого способа достичь своей цели.

Итак, у меня есть набор данных "df_1531", содержащий много данных, которые мне нужны разрезать на части с помощью subset () (если кто-нибудь знает лучший способ, дайте мне знать;)). У меня есть вектор с 21 именем переменной, для которого мне нравится назначать подмножество df_1531. Кроме того, скрипт содержит 22 переменные с ограничениями (shift_XY_time).

Итак, теперь это мой код ...

# list containing different slots
shift_time_list<- c(startdate, shift_1m_time, shift_1a_time, shift_1n_time,
                               shift_2m_time, shift_2a_time, shift_2n_time,
                               shift_3m_time, shift_3a_time, shift_3n_time,
                               shift_4m_time, shift_4a_time, shift_4n_time, 
                               shift_5m_time, shift_5a_time, shift_5n_time,
                               shift_6m_time, shift_6a_time, shift_6n_time,
                               shift_7m_time, shift_7a_time, shift_7n_time)
# List with subset names 
shift_sub_list <- c("shift_1m_sub", "shift_1a_sub", "shift_1n_sub",
                    "shift_2m_sub", "shift_2a_sub", "shift_2n_sub",
                    "shift_3m_sub", "shift_3a_sub", "shift_3n_sub",
                    "shift_4m_sub", "shift_4a_sub", "shift_4n_sub", 
                    "shift_5m_sub", "shift_5a_sub", "shift_5n_sub",
                    "shift_6m_sub", "shift_6a_sub", "shift_6n_sub",
                    "shift_7m_sub", "shift_7a_sub", "shift_7n_sub")

# The actual loop that I'd like to rewrite
for (i in 1:21) {
  assign(shift_sub_list[i], subset(df_1531, df_1531$'PLS FFM' >= shift_time_list[i] & df_1531$'PLS FFM' < shift_time_list[i+1]))
}

Запуск l oop занимает приблизительно 6 или 7 секунд. Поэтому, если кто-нибудь знает, как лучше / чище или быстрее написать мой код, мне очень хотелось бы услышать ваше предложение / мнение.

** Воспроизводимый пример **

mydata <- cars

dput(cars)
structure(list(speed = c(4, 4, 7, 7, 8, 9, 10, 10, 10, 11, 11, 
                         12, 12, 12, 12, 13, 13, 13, 13, 14, 14, 14, 14, 15, 15, 15, 16, 
                         16, 17, 17, 17, 18, 18, 18, 18, 19, 19, 19, 20, 20, 20, 20, 20, 
                         22, 23, 24, 24, 24, 24, 25), dist = c(2, 10, 4, 22, 16, 10, 18, 
                                                               26, 34, 17, 28, 14, 20, 24, 28, 26, 34, 34, 46, 26, 36, 60, 80, 
                                                               20, 26, 54, 32, 40, 32, 40, 50, 42, 56, 76, 84, 36, 46, 68, 32, 
                                                               48, 52, 56, 64, 66, 54, 70, 92, 93, 120, 85)), class = "data.frame", row.names = c(NA, 
                                                                                                                                                  -50L))

dist_interval_list <- c(  0,   5,  10,  15,
                         20,  25,  30,  35, 
                         40,  45,  50,  55, 
                         60,  65,  70,  75,
                         80,  85,  90,  95,
                        100, 105, 110, 115, 120)


var_name_list <- c("var_name_1a", "var_name_1b", "var_name_1c", "var_name_1d",
                    "var_name_2a", "var_name_2b", "var_name_2c", "var_name_2d",
                    "var_name_3a", "var_name_3b", "var_name_3c", "var_name_3d",
                    "var_name_4a", "var_name_4b", "var_name_4c", "var_name_4d",
                    "var_name_5a", "var_name_5b", "var_name_5c", "var_name_5d",
                    "var_name_6a", "var_name_6b", "var_name_6c", "var_name_6d")


for (i in 1:24){
  assign(var_name_list[i], subset(mydata,
                                       mydata$dist >= dist_interval_list[i] & 
                                       mydata$dist < dist_interval_list[i+1]))
}

1 Ответ

2 голосов
/ 08 января 2020

Начиная с «воспроизводимой» части и информации о том, что конечной целью является суммирование другого столбца, можно использовать тот факт, что интервалы не перекрываются, и просто использовать функцию cut.

library(tidyverse)

mydata %>% 
  mutate(interval = cut(dist, breaks = dist_interval_list)) %>% 
  group_by(interval) %>% 
  summarise(sum = sum(speed))

Это должно быть намного быстрее и поможет вам не потеряться в грязной среде, полной переменных (которые на самом деле являются частью ваших данных). Вы хотите хранить все данные в одном фрейме как можно дольше;) Возможно, вы захотите добавить что-то вроде purrrlyr::invoke_rows на последнем этапе моделирования, если ваша функция не работает с фреймами данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...