Как проанализировать файлы JSON / поток JSON, хранящиеся в AWS S3? - PullRequest
0 голосов
/ 27 февраля 2019

У меня есть корзина AWS S3, полная файлов JSON или файлов с несколькими JSON (потоком).

Моя цель - подключить и проанализировать их в R Studio.

Вот что яуже сделали:

bl <- bucketlist()

# Builds a dataframe of the files metadata in a bucket:

dfBucket <- get_bucket(bucket = "company-kuku-streamed-data", prefix = "2019/", max = Inf) %>% 
  rbindlist()

# Create path based on data in bucket:

path <- dfBucket$Key

get_bucket_files <- function(path, bucket_prefix = 's3://company-kuku-streamed-data/') {

  url <- paste0(bucket_prefix, path)
  s3Vector <- get_object(url)
  s3Value <- rawToChar(s3Vector)
  return(s3Value)

}

и используя выше:

plan(strategy = "multicore")

ingenico_json_files_list <- furrr::future_map(path, get_bucket_files)

Когда я пытаюсь проанализировать файлы, я получаю сообщение об ошибке для файлов, которые содержат несколько JSON как поток вфайл.

Посоветуйте, пожалуйста, как я могу прочитать их все без ручного исправления и разделения с помощью регулярных выражений?Я чувствую, что должна быть такая функция, которая знает, как справиться с такой ситуацией.

...