как добавить количество фолловеров в наборе данных (самый активный пользователь) - PullRequest
0 голосов
/ 13 июня 2018

у меня есть набор данных социальной сети, содержащий информацию о том, как мне нужно найти наиболее активного пользователя (например, пользователя, который дозирует больше всего), мои строки набора данных похожи на приведенные ниже

 1000066:262792,273106,590979,1152305,1691577,1888250

и некоторые из них похожи на эти

1000073:private
1000069:notfound

вопросы 1: как сделать rdd любой строки таким образом, чтобы ключ всех пар rdd был первым числом, разделенным символом «:», и значениями по одномуодин разделенный с ','?Вопрос 2: как я могу решить эту проблему с помощью GraphX?Все, что мне нужно, это заранее найти наиболее активного пользователя в этом наборе данных, ответив на все эти вопросы тоже поможет

1 Ответ

0 голосов
/ 13 июня 2018

Q1.Вы можете создать кортеж RDD (user, followers)

. В функции карты передайте каждую строку RDD:

def createTuple(s: String) = {
  val kv = s.split(":")
  val user = kv(0)
  val followers = kv(1).split(",")
  val count = followers.length

  (user, followers, count)
}
...