CSV / паркет в Динамо, небольшой файл ~ 500 тыс. Строк, только два столбца - PullRequest
0 голосов
/ 04 марта 2019

Я ищу способ загрузки данных CSV / паркета в Dynamo DB без необходимости создания конвейера данных.

У меня есть небольшой (12 МБ паркет / 30 МБ CSV) файл, который состоит из двух столбцов.Он генерируется ежедневно, а динамо-таблица нуждается в полном обновлении каждый день.

Сначала я решил использовать AWS Athena, который был очень прост в настройке.Но для чтения он медленный (каждый запрос занимает от 1,5 до 4 секунд).Этот процесс может быть использован другими сотрудниками компании в ближайшем будущем, поэтому я сейчас ищу что-то более быстрое.

Я изучил функцию записи элементов данных в Dynamo DB.Но кажется крайне неэффективным совершать около 500000/25 вызовов в день, чтобы обновить эту сравнительно небольшую таблицу размеров.

Что расстраивает, так это то, что один вызов с использованием batchwriteitem имеет максимальный размер 16 МБ с 400 КБ на каждыйстрока.Это почти размер самого файла.

Я рассмотрел, возможно, отправку данных в виде одной длинной строки и разбиение их.Но я не смог найти такую ​​операцию.Любопытно, если кто-нибудь есть какие-либо материалы по этому вопросу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...