pyspark - параллельный запуск SQL-запроса spark для нескольких идентификаторов в списке - PullRequest
0 голосов
/ 23 сентября 2019

У меня есть список, скажем,

ids = ['K50', 'K51', 'K51', 'P41', 'P41', 'P42']  

Что мне нужно достичь -

  1. Взять каждый идентификатор из списка
  2. Получить данные изтаблица кустов (например, tableA) для каждого сайта.
  3. Поверните некоторые значения для этих данных.
  4. Запись в файл паркета для каждого идентификатора.

Примечание. Мне нужно выполнять это задание параллельно для каждого идентификатора в списке.

Я просмотрел несколько постов, но не нашел конкретного решения.Как я могу решить эту проблему в pyspark?

Версия Spark - 2.4.3

1 Ответ

0 голосов
/ 23 сентября 2019

Вам необходимо переназначить данные на основе ключа.Я реализовал это с помощью распределенного ключа и кластера.Проверьте ниже URL.Вы найдете много блогов на эту тему.

https://deepsense.ai/optimize-spark-with-distribute-by-and-cluster-by/ 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...