Визуализация данных в искре через R - PullRequest
1 голос
/ 25 апреля 2020

Я пытаюсь ознакомиться со SparkR, работая над набором данных kaggle "Такси Нью-Йорка - Продолжительность поездки".
Во время анализа я столкнулся с трудностями в области визуализации данных и, в частности, в связи с ggplot.
Это может показаться тривиальным, но я не могу представить распределение целевой переменной "Trip_duration".

Я пытался использовать обе SparkR :: гистограмма и dbplot_histogram через библиотеку Sparklyr,
, но оба результата отличаются от результатов, которые я хотел бы получить.

Ниже я приведу результаты, полученные с помощью различных строк кода

Поездка на такси продолжительность - Выполнено R, ПРАВИЛЬНО!

library(ggplot2)
qplot(train$trip_duration, geom="histogram")

Taxi trip duration - Performed by R, CORRECT!

Продолжительность поездки на такси - SparkR :: Гистограмма

histStats1 <- SparkR::histogram(train, train$trip_duration) 
ggplot(histStats1, aes(x = bins, y = counts))+
  geom_col(stat = "identity") +
  xlab("bins") + ylab("count")

SparkR::histogram table Также неясно, почему ячейки начинаются с -1. Ниже приведен вывод таблицы гистограмм, переданной в ggplot enter image description here

Продолжительность поездки на такси - Sparklyr dbplot_histogram

train_tbl <- copy_to(sc, train)
train_tbl %>% 
  dbplot_histogram(trip_duration)

Taxi trip duration - Sparklyr

как я могу это исправить? Заранее спасибо !!

...