Question

Я искал варианты для загрузки (в основном, очистки и восстановления) файла Parquet из S3 в DynamoDB. Сам файл паркета создается через искровое задание, которое выполняется в кластере EMR. Вот несколько вещей, о которых нужно помнить,

Я не могу использовать конвейер данных AWS
Файл будет содержать миллионы строк (скажем, 10 миллионов), поэтому потребуется эффективное решение. Я полагаю, что API-интерфейс boto (даже при пакетной записи) может быть не таким эффективным?

Есть ли другие альтернативы?

Steve Loughran · Answer 1 · 23 апреля 2019

Можете ли вы просто обратиться к файлам Parquet в Spark RDD и попросить рабочих поместить записи в DynamoDB? Игнорирование проблемы кэширования клиента DynamoDB на каждом рабочем месте для повторного использования в разных строках, это немного скала, чтобы взять строку, создать запись для динамо и PUT, чего должно быть достаточно.

Кстати: используйте здесь DynamoDB по требованию, поскольку он хорошо справляется с пиковыми нагрузками без необходимости выполнения каких-либо соглашений об уровне обслуживания.

Загрузка файла паркета из S3 в DynamoDB

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Загрузка файла паркета из S3 в DynamoDB

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы