Question

Я ищу способ загрузки данных CSV / паркета в Dynamo DB без необходимости создания конвейера данных.

У меня есть небольшой (12 МБ паркет / 30 МБ CSV) файл, который состоит из двух столбцов.Он генерируется ежедневно, а динамо-таблица нуждается в полном обновлении каждый день.

Сначала я решил использовать AWS Athena, который был очень прост в настройке.Но для чтения он медленный (каждый запрос занимает от 1,5 до 4 секунд).Этот процесс может быть использован другими сотрудниками компании в ближайшем будущем, поэтому я сейчас ищу что-то более быстрое.

Я изучил функцию записи элементов данных в Dynamo DB.Но кажется крайне неэффективным совершать около 500000/25 вызовов в день, чтобы обновить эту сравнительно небольшую таблицу размеров.

Что расстраивает, так это то, что один вызов с использованием batchwriteitem имеет максимальный размер 16 МБ с 400 КБ на каждыйстрока.Это почти размер самого файла.

Я рассмотрел, возможно, отправку данных в виде одной длинной строки и разбиение их.Но я не смог найти такую операцию.Любопытно, если кто-нибудь есть какие-либо материалы по этому вопросу.

CSV / паркет в Динамо, небольшой файл ~ 500 тыс. Строк, только два столбца

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

CSV / паркет в Динамо, небольшой файл ~ 500 тыс. Строк, только два столбца

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов