Question

Я новичок в AWS и хочу выполнить некоторую конвейеризацию данных в AWS.

У меня есть куча файлов CSV, хранящихся в S3

Чего я хочу достичь:

Я хочу объединить все файлы CSV и добавить имя файла в каждую строку, перед объединением CSV необходимо удалить первую строку для каждого файла;
Разделить столбец имени файла по разделителю _;
Сохранить все это в БД после обработки.

Что это лучший / быстрый способ достичь этого.

Спасибо

SUDARSHAN RAMPURIA · Answer 1 · 07 января 2020

Вы можете создать связующее задание, используя pyspark, который получит файл csv в df, а затем вы сможете преобразовать его как хотите.

После этого вы можете преобразовать этот df в паркет и сохранить его в s3.

Затем вы можете запустить сканер клея, который преобразует данные паркета в таблицу, которую вы можете запросить.

В основном вы выполняете ETL, используя клей aws.

AWS передача данных CVS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.