R: dplyr не работает с искрой из-за проблем с памятью - PullRequest
1 голос
/ 28 октября 2019

Я пытаюсь вычислить разницу во времени, измеренную в секундах между двумя столбцами фрейма данных, используя dplyr. Мой фрейм данных был загружен следующим образом:

connection <- spark_connect(master = 'local')
complete.data <- spark_read_csv(sc, "D:/mydata.csv")

пример фрейма данных:

              start_time             end_time 
                  <dttm>                <dttm>
 1   2017-01-09 10:13:28   2017-01-09 10:25:45 
 2   2017-01-09 10:32:27   2017-01-09 10:36:01
 3   2017-01-09 10:38:20   2017-01-09 10:42:05

когда я запускаю это, переменная end_time существует:

> complete.data %>% select(end_time)
# Source: spark<?> [?? x 1]
  end_time
  <dttm>              
1 2017-01-09 10:13:28 
2 2017-01-09 10:32:27 
3 2017-01-09 10:38:20 
4 etc..

нокогда я хочу выполнить эту команду, переменная end_time не существует

> complete.data %>% mutate(idletime = difftime(end_time, lag(start_time), units = "mins"))
Error in as.POSIXct(time1) : object 'end_time' not found

пример вывода:

         start_time              end_time       idletime
             <dttm>                 <dttm>          <???>
2017-01-09 10:13:28    2017-01-09 10:25:45             89 (12 minutes and 17 seconds is 89 seconds)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...