Я пишу алгоритм Spark, чтобы получить топ-k ключевых слов для каждой страны, теперь у меня уже есть Dataframe, содержащий все записи, и я планирую сделать
df.repartition($"country_id").mapPartition()
, чтобы получить топ-k ключевых слов, но я не совсем понимаю, какЯ мог бы написать итератор, чтобы получить его.
Если я могу написать метод или вызвать собственный метод, я могу отсортировать по каждому разделу и получить top k, который, кажется, не является правильным подходом, если вводитератор.
У кого-нибудь есть идеи?