У меня очень большой набор данных, и я использую спарк на R. Я хотел бы знать, использую ли я самый вычислительно эффективный метод для работы с набором данных. Например, с помощью библиотеки dplyr я создаю новый набор данных, извлеченный из первого для построения графика или других операций.
connection <- spark_connect(master = 'local')
all_data <- spark_read_csv(connection, 'D:\my_data')
plot_data <- all_data %>%
filter (etc...)
ggplot(etc...) +
geom_col()
Имейте в виду, что я должен выполнять много графики или операций этого типа. Могу ли я использовать следующие команды, чтобы сделать код более эффективным в вычислительном отношении (т.е. быстрее)?
sdf_register("...string...") %>%
sdf_checkpoint()
compute('...string...')