Question

В большинстве случаев начало кода, над которым я работаю, выглядит примерно так:

data = read.csv("path") %>% 
  filter() %>% 
  select() %>% 
  mutate() %>% 

  data.table()

Я теряю производительность, отправляя данные в data.table () только напоследний шаг?

hank_044 · Answer 1 · 06 декабря 2018

Как отметили комментаторы, вы можете делать все это в data.table или tidyverse.Если вы чувствуете себя более комфортно в dplyr, есть ли причина, по которой вы хотите использовать data.table в своем коде?

Хорошая причина в том, что у вас есть проблемы с производительностью.Если dplyr работает медленно, вы можете переместить все в data.table и fread.Если на самом деле нет причины, возможно, просто преобразуйте данные в таблицу в последней строке для согласованности.

Если вы хотите получить более надежный ответ о профилировании производительности, вам, вероятно, следует опубликовать что-то более конкретное и воспроизводимое.

При использовании dplyr, на каком этапе я должен отправить данные в data.table () для оптимальной производительности?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

При использовании dplyr, на каком этапе я должен отправить данные в data.table () для оптимальной производительности?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов