собирать через odbc мучительно медленно, используя dbplyr - PullRequest
0 голосов
/ 24 сентября 2019
library(pool)
library(dbplyr)
library(DBI)
library(tidyverse)

local_pool <- pool::dbPool(odbc::odbc(), dsn = "my_dsn", PWD = "my_psw")

my_db_tbl <- tbl(local_pool, in_schema('"my_schema"', "my_table_in_oracle")) 

my_db_tbl %>% tally() #200000 (and super fast)
my_db_tbl %>% head(100) #again super fast

Все, что запускается в oracle - computations и т. Д., Очень быстро для более чем 5-million строк ...

Однако, если я хочу принести эти данные, потребуется время (более часа)200 000 строк в R для моделирования с использованием parsnip и т. Д.

У меня есть еще одна таблица, содержащая только 61 000 строк, и это займет более получаса, чтобы вернуться в R.

Что я делаю неправильно??Как я могу ускорить это?

...