Загрузка файла паркета из S3 в DynamoDB - PullRequest
0 голосов
/ 23 апреля 2019

Я искал варианты для загрузки (в основном, очистки и восстановления) файла Parquet из S3 в DynamoDB. Сам файл паркета создается через искровое задание, которое выполняется в кластере EMR. Вот несколько вещей, о которых нужно помнить,

  1. Я не могу использовать конвейер данных AWS
  2. Файл будет содержать миллионы строк (скажем, 10 миллионов), поэтому потребуется эффективное решение. Я полагаю, что API-интерфейс boto (даже при пакетной записи) может быть не таким эффективным?

Есть ли другие альтернативы?

1 Ответ

0 голосов
/ 23 апреля 2019

Можете ли вы просто обратиться к файлам Parquet в Spark RDD и попросить рабочих поместить записи в DynamoDB? Игнорирование проблемы кэширования клиента DynamoDB на каждом рабочем месте для повторного использования в разных строках, это немного скала, чтобы взять строку, создать запись для динамо и PUT, чего должно быть достаточно.

Кстати: используйте здесь DynamoDB по требованию, поскольку он хорошо справляется с пиковыми нагрузками без необходимости выполнения каких-либо соглашений об уровне обслуживания.

...