Чтение больших файлов из Google Cloud Storage в Rstudio - PullRequest
0 голосов
/ 26 апреля 2020

У меня есть экземпляр виртуальной машины Google Cloud, подключенный к хранилищу облачного хранилища Google. Я использую сервер Rstudio и пытаюсь прочитать некоторые наборы данных .csv из корзины как data.table (из пакета data.table). Я использую пакет googleCloudStorageR и испытываю трудности с анализом двоичных данных, которые я получаю из корзины. Шаги следующие:

raw.data <- gcs_get_object(MYFILEOBJECT) #This parses as class raw. MYFILEOBJECT is a .csv of size 3GB on the bucket.
char.data <- rawToChar(raw.data,multiple=TRUE) #This should parse to character. I use multiple=TRUE because it's a long vector. The problem is that this is extremely slow.
DT <- fread(char.data) # ultimately I am trying to read the data in as data.table.

Этот метод запредельно медленный, потому что шаг разбора (rawToChar) очень медленный. Есть ли лучший способ сделать это? Я попытался смонтировать каталог с предохранителем GCS, но это тоже было очень медленно.

...