У меня есть список наборов данных, которые я хочу разделить по определенному ключу, который является общим для всех моих наборов данных, а затем выполнить несколько объединений / группировок, которые одинаковы для всех разделенных наборов данных.
Я пытаюсь разработать алгоритм таким образом, чтобы я использовал Spark's partitionBy для создания раздела по определенному ключу.
Теперь один из способов - запускать операции над каждым разделом в цикле, но это неэффективно.
Я хотел посмотреть, разделил ли я данные вручную, могу ли я параллельно выполнять операции с этими наборами данных.
Я только начал изучать Spark, так что прости меня, если это наивный вопрос.
Рассмотрим набор данных идентификаторов клиентов и их поведенческие данные, такие как просмотр / клики и т. Д. В разных наборах данных. Скажем, один для просмотра, другой для кликов. Сначала я думаю о разделении моих данных по идентификаторам клиентов, а затем для каждого раздела (клиента) присоединяюсь к какому-либо атрибуту, например, к браузеру или устройству, чтобы посмотреть, как ведет себя каждый клиент. В общем, это похоже на вложенное распараллеливание.
Это вообще возможно в Spark? Есть что-то очевидное, чего мне не хватает? К какой документации я могу обратиться?