Недавно я запускал скрипт R, разработанный под версией R 3.2.2 с dplyr 0.5.0 под R 3.5.1 с использованием dplyr 0.7.6.К моему удивлению, выполнение кода заняло примерно в 100 раз больше времени, чем обычно, что я проследил до использования функции group_by в следующем выражении, где я:
matches=as.data.frame(df %>%
group_by(id) %>%
filter(living_quarters >= matching_living_quarters,
abs(age-matching_age) <= 4,
index<matching_index-lag_time,
sex==matching_sex) %>%
mutate(matched_id=matching_id))
Я до сих пор не смог найти причинупочему время выполнения будет намного хуже.Приводила ли group_by к параллельной обработке в более ранних версиях или у кого-нибудь есть понимание, почему это прямолинейное использование будет обрабатываться обновленной версией намного медленнее?