Spark groupByKey с использованием столбца - PullRequest
0 голосов
/ 08 сентября 2018

У меня есть алгоритм в искре, который, я верю, может быть эффективно реализован только как cogroup.В настоящее время я достигаю этого с наборами данных, выполняя операцию groupByKey в двух наборах данных, которые мне нужно объединить.

Проблема с этим подходом состоит в том, что он менее эффективен, чем на стороне карты, так какозначает выделение объектов Java как для объекта строки, так и для ключа.В идеале я бы использовал фреймы данных на стороне карты и просто использовал столбцы столбцов снабжения, чтобы сгруппировать их, чтобы устранить необходимость в этом распределении, а затем переключиться на наборы данных для cogroup.

Поэтому мой вопрос заключается в следующем:можно получить функциональность cogroup в spark, избегая при этом дополнительного распределения на стороне карты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...