AWS передача данных CVS - PullRequest
0 голосов
/ 07 января 2020

Я новичок в AWS и хочу выполнить некоторую конвейеризацию данных в AWS.

У меня есть куча файлов CSV, хранящихся в S3

Чего я хочу достичь:

  1. Я хочу объединить все файлы CSV и добавить имя файла в каждую строку, перед объединением CSV необходимо удалить первую строку для каждого файла;

  2. Разделить столбец имени файла по разделителю _;

  3. Сохранить все это в БД после обработки.

Что это лучший / быстрый способ достичь этого.

Спасибо

1 Ответ

0 голосов
/ 07 января 2020

Вы можете создать связующее задание, используя pyspark, который получит файл csv в df, а затем вы сможете преобразовать его как хотите.

После этого вы можете преобразовать этот df в паркет и сохранить его в s3.

Затем вы можете запустить сканер клея, который преобразует данные паркета в таблицу, которую вы можете запросить.

В основном вы выполняете ETL, используя клей aws.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...