После обновления R и dplyr время выполнения функции dplyr :: group_by увеличивается - PullRequest
0 голосов
/ 19 сентября 2018

Недавно я запускал скрипт R, разработанный под версией R 3.2.2 с dplyr 0.5.0 под R 3.5.1 с использованием dplyr 0.7.6.К моему удивлению, выполнение кода заняло примерно в 100 раз больше времени, чем обычно, что я проследил до использования функции group_by в следующем выражении, где я:

matches=as.data.frame(df %>%
                       group_by(id) %>%
                       filter(living_quarters >= matching_living_quarters,
                              abs(age-matching_age) <= 4,
                              index<matching_index-lag_time,
                              sex==matching_sex) %>%
                       mutate(matched_id=matching_id))

Я до сих пор не смог найти причинупочему время выполнения будет намного хуже.Приводила ли group_by к параллельной обработке в более ранних версиях или у кого-нибудь есть понимание, почему это прямолинейное использование будет обрабатываться обновленной версией намного медленнее?

...