При использовании dplyr, на каком этапе я должен отправить данные в data.table () для оптимальной производительности? - PullRequest
0 голосов
/ 06 декабря 2018

В большинстве случаев начало кода, над которым я работаю, выглядит примерно так:

data = read.csv("path") %>% 
  filter() %>% 
  select() %>% 
  mutate() %>% 

  data.table()

Я теряю производительность, отправляя данные в data.table () только напоследний шаг?

1 Ответ

0 голосов
/ 06 декабря 2018

Как отметили комментаторы, вы можете делать все это в data.table или tidyverse.Если вы чувствуете себя более комфортно в dplyr, есть ли причина, по которой вы хотите использовать data.table в своем коде?

Хорошая причина в том, что у вас есть проблемы с производительностью.Если dplyr работает медленно, вы можете переместить все в data.table и fread.Если на самом деле нет причины, возможно, просто преобразуйте данные в таблицу в последней строке для согласованности.

Если вы хотите получить более надежный ответ о профилировании производительности, вам, вероятно, следует опубликовать что-то более конкретное и воспроизводимое.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...