У меня есть корзина AWS S3, полная файлов JSON или файлов с несколькими JSON (потоком).
Моя цель - подключить и проанализировать их в R Studio.
Вот что яуже сделали:
bl <- bucketlist()
# Builds a dataframe of the files metadata in a bucket:
dfBucket <- get_bucket(bucket = "company-kuku-streamed-data", prefix = "2019/", max = Inf) %>%
rbindlist()
# Create path based on data in bucket:
path <- dfBucket$Key
get_bucket_files <- function(path, bucket_prefix = 's3://company-kuku-streamed-data/') {
url <- paste0(bucket_prefix, path)
s3Vector <- get_object(url)
s3Value <- rawToChar(s3Vector)
return(s3Value)
}
и используя выше:
plan(strategy = "multicore")
ingenico_json_files_list <- furrr::future_map(path, get_bucket_files)
Когда я пытаюсь проанализировать файлы, я получаю сообщение об ошибке для файлов, которые содержат несколько JSON как поток вфайл.
Посоветуйте, пожалуйста, как я могу прочитать их все без ручного исправления и разделения с помощью регулярных выражений?Я чувствую, что должна быть такая функция, которая знает, как справиться с такой ситуацией.