Я работаю над задачей копирования файлов CSV из корзины s3 в красное смещение. Я нашел несколько способов сделать это, но я не уверен, какой из них будет лучшим из возможных. Вот сценарий:
Через равные промежутки времени в мое ведро s3 будут добавляться несколько CSV-файлов размером около 500 МБ - 1 ГБ. Данные могут содержать дубликаты. Задача состоит в том, чтобы скопировать данные в таблицу красного смещения, гарантируя, что в красном смещении нет повторяющихся данных.
Вот способы, которые я нашел, которые можно использовать:
Создание AWS лямбда-функции, которая будет запускаться при каждом добавлении файла в корзину s3.
Использование AWS Kinesis
Использование AWS Клей
Я понимаю, что лямбда не должна использоваться для работ, которые занимают более 5 минут. Так стоит ли мне его использовать или просто убрать эту опцию?
Kinesis может обрабатывать большие объемы данных, но лучше ли это делать?
Я не знаком с Glue и Kinesis. Но я читал, что клей может быть медленным.
Если кто-нибудь может указать мне правильное направление, это будет очень полезно.