Question

У меня есть список, скажем,

ids = ['K50', 'K51', 'K51', 'P41', 'P41', 'P42']

Что мне нужно достичь -

Взять каждый идентификатор из списка
Получить данные изтаблица кустов (например, tableA) для каждого сайта.
Поверните некоторые значения для этих данных.
Запись в файл паркета для каждого идентификатора.

Примечание. Мне нужно выполнять это задание параллельно для каждого идентификатора в списке.

Я просмотрел несколько постов, но не нашел конкретного решения.Как я могу решить эту проблему в pyspark?

Версия Spark - 2.4.3

Ishan Kumar · Answer 1 · 23 сентября 2019

Вам необходимо переназначить данные на основе ключа.Я реализовал это с помощью распределенного ключа и кластера.Проверьте ниже URL.Вы найдете много блогов на эту тему.

https://deepsense.ai/optimize-spark-with-distribute-by-and-cluster-by/

pyspark - параллельный запуск SQL-запроса spark для нескольких идентификаторов в списке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

pyspark - параллельный запуск SQL-запроса spark для нескольких идентификаторов в списке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы