Question

У меня очень большой набор данных, и я использую спарк на R. Я хотел бы знать, использую ли я самый вычислительно эффективный метод для работы с набором данных. Например, с помощью библиотеки dplyr я создаю новый набор данных, извлеченный из первого для построения графика или других операций.

connection <- spark_connect(master = 'local')
all_data <- spark_read_csv(connection, 'D:\my_data')


plot_data  <- all_data %>% 
  filter (etc...)
  ggplot(etc...) +
  geom_col()

Имейте в виду, что я должен выполнять много графики или операций этого типа. Могу ли я использовать следующие команды, чтобы сделать код более эффективным в вычислительном отношении (т.е. быстрее)?

sdf_register("...string...") %>%
sdf_checkpoint()
compute('...string...')

R и искра: вычислительно более эффективны с dplyr

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

R и искра: вычислительно более эффективны с dplyr

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов