R и искра: вычислительно более эффективны с dplyr - PullRequest
0 голосов
/ 18 января 2020

У меня очень большой набор данных, и я использую спарк на R. Я хотел бы знать, использую ли я самый вычислительно эффективный метод для работы с набором данных. Например, с помощью библиотеки dplyr я создаю новый набор данных, извлеченный из первого для построения графика или других операций.

connection <- spark_connect(master = 'local')
all_data <- spark_read_csv(connection, 'D:\my_data')


plot_data  <- all_data %>% 
  filter (etc...)
  ggplot(etc...) +
  geom_col()

Имейте в виду, что я должен выполнять много графики или операций этого типа. Могу ли я использовать следующие команды, чтобы сделать код более эффективным в вычислительном отношении (т.е. быстрее)?

sdf_register("...string...") %>%
sdf_checkpoint()
compute('...string...')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...