Я ищу способ загрузки данных CSV / паркета в Dynamo DB без необходимости создания конвейера данных.
У меня есть небольшой (12 МБ паркет / 30 МБ CSV) файл, который состоит из двух столбцов.Он генерируется ежедневно, а динамо-таблица нуждается в полном обновлении каждый день.
Сначала я решил использовать AWS Athena, который был очень прост в настройке.Но для чтения он медленный (каждый запрос занимает от 1,5 до 4 секунд).Этот процесс может быть использован другими сотрудниками компании в ближайшем будущем, поэтому я сейчас ищу что-то более быстрое.
Я изучил функцию записи элементов данных в Dynamo DB.Но кажется крайне неэффективным совершать около 500000/25 вызовов в день, чтобы обновить эту сравнительно небольшую таблицу размеров.
Что расстраивает, так это то, что один вызов с использованием batchwriteitem имеет максимальный размер 16 МБ с 400 КБ на каждыйстрока.Это почти размер самого файла.
Я рассмотрел, возможно, отправку данных в виде одной длинной строки и разбиение их.Но я не смог найти такую операцию.Любопытно, если кто-нибудь есть какие-либо материалы по этому вопросу.