Question

Я пытаюсь ознакомиться со SparkR, работая над набором данных kaggle "Такси Нью-Йорка - Продолжительность поездки".
Во время анализа я столкнулся с трудностями в области визуализации данных и, в частности, в связи с ggplot.
Это может показаться тривиальным, но я не могу представить распределение целевой переменной "Trip_duration".

Я пытался использовать обе SparkR :: гистограмма и dbplot_histogram через библиотеку Sparklyr,
, но оба результата отличаются от результатов, которые я хотел бы получить.

Ниже я приведу результаты, полученные с помощью различных строк кода

Поездка на такси продолжительность - Выполнено R, ПРАВИЛЬНО!

library(ggplot2)
qplot(train$trip_duration, geom="histogram")

Продолжительность поездки на такси - SparkR :: Гистограмма

histStats1 <- SparkR::histogram(train, train$trip_duration) 
ggplot(histStats1, aes(x = bins, y = counts))+
  geom_col(stat = "identity") +
  xlab("bins") + ylab("count")

Также неясно, почему ячейки начинаются с -1. Ниже приведен вывод таблицы гистограмм, переданной в ggplot

Продолжительность поездки на такси - Sparklyr dbplot_histogram

train_tbl <- copy_to(sc, train)
train_tbl %>% 
  dbplot_histogram(trip_duration)

как я могу это исправить? Заранее спасибо !!

Визуализация данных в искре через R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Визуализация данных в искре через R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы