В R Как удалить разрывы строк из поля, чтобы он мог быть прочитан Amazon Athena? - PullRequest
0 голосов
/ 09 октября 2018

Я работаю в R (Max OSX) для своего процесса ETL и должен экспортировать его в корзину AWS S3, чтобы он мог быть прочитан Афиной.В настоящее время Афина не читает это правильно из-за разрывов строк внутри столбцов.Как это исправить, не удаляя все разрывы строк из данных?

1 Ответ

0 голосов
/ 09 октября 2018

Это звучит , как будто у вас есть файл CSV с новыми строками в столбце или двух.Это ... не очень хорошо ... для чего угодно, в том числе и для Афины (но эти системы "больших данных" такие милые , что, в частности, они не в состоянии делать такие вещи, как чтение файлов CSV, с которыми другие среды легко справляются).

Это также звучит так, как будто вам нужно все, что вы делаете, чтобы использовать его в Таблице (хотя я не совсем уверен, почему вы не можете записать его в несколько форматов).Я получил это из другого вопроса, который вы недавно задавали.

В Tableau можно читать JSON с разделителями строк и Athena любит JSON с разделителями строк, поэтому просто напишите свой фрейм данных примерно так:

jsonlite::stream_out(mtcars, gzfile("mtcars.json.gz"))

добавьте его в S3 и определите схему в Афине (как в любом случае вы должны сделать с CSV).

Вы также можете указать пометку дракона (таблица / перетаскивание)-n-drop) пользователи файла или несжатой версии, если эта ужасная программа не может обработать gzip'd ndjson.

...