dplyr
функции, как правило, невероятно производительны, поскольку были оптимизированы сообществом разработчиков ПО с открытым исходным кодом, и многие даже дошли до запуска c++
под капотом, чтобы сделать их намного быстрее.
Получает ли код BigQuery, сгенерированный через bigrquery
и dbplyr
какую-либо оптимизацию, или он просто генерирует sql так, как может (без оптимизации)? (обратите внимание, что и bigrquery
, и dbplyr
, как и dplyr
, также являются пакетами tidyverse, и оба написаны автором dplyr Хэдли Уикхемом)
Справочная информация
Меня интересуетнасколько оптимизирован сгенерированный код BigQuery, потому что я пытаюсь решить, стоит ли дополнительно оптимизировать некоторые пакетные процессы, написанные в bigrquery
и dbplyr
путем вручную , переписав некоторые изкод BigQuery (вместо использования этих пакетов). Если я вряд ли увижу значительные улучшения производительности, я не буду тратить время на это.
Пример запроса
Это следующее от bigrquery
readme
library(dplyr)
natality <- tbl(con, "natality")
natality %>%
select(year, month, day, weight_pounds) %>%
head(10) %>%
collect()