Я пытаюсь ознакомиться со SparkR, работая над набором данных kaggle "Такси Нью-Йорка - Продолжительность поездки".
Во время анализа я столкнулся с трудностями в области визуализации данных и, в частности, в связи с ggplot.
Это может показаться тривиальным, но я не могу представить распределение целевой переменной "Trip_duration".
Я пытался использовать обе SparkR :: гистограмма и dbplot_histogram через библиотеку Sparklyr,
, но оба результата отличаются от результатов, которые я хотел бы получить.
Ниже я приведу результаты, полученные с помощью различных строк кода
Поездка на такси продолжительность - Выполнено R, ПРАВИЛЬНО!
library(ggplot2)
qplot(train$trip_duration, geom="histogram")
Продолжительность поездки на такси - SparkR :: Гистограмма
histStats1 <- SparkR::histogram(train, train$trip_duration)
ggplot(histStats1, aes(x = bins, y = counts))+
geom_col(stat = "identity") +
xlab("bins") + ylab("count")
Также неясно, почему ячейки начинаются с -1. Ниже приведен вывод таблицы гистограмм, переданной в ggplot
Продолжительность поездки на такси - Sparklyr dbplot_histogram
train_tbl <- copy_to(sc, train)
train_tbl %>%
dbplot_histogram(trip_duration)
как я могу это исправить? Заранее спасибо !!