Реализовать алгоритм ранга страницы с помощью Pyspark - PullRequest
0 голосов
/ 24 апреля 2020

Может ли кто-нибудь любезно помочь отрегулировать оставшийся код, поскольку я запутался в том, что касается алгоритма Google Page Rank], используя PySpark. Большое спасибо

Я сделал несколько частей:

def computeContribs(neighbors, rank):
  for neighbor in neighbors:
    yield (neighbor, rank/len(neighbors))

rdd = sc.textFile('network.txt').persist() 
linksRDD = rdd.map(lambda x:tuple(x.split(" "))).map(lambda x:(x[0],[x[1]])).reduceByKey(lambda x, y: x+y).collect()
linksRDD2 = sc.parallelize (linksRDD)
ranksRDD = linksRDD2.map(lambda x:(x[0],1.0)).collect()

, но я запутался в расчете вклада исходящей ссылки каждой страницы.

contribs = 

обновить рейтинг страницы каждой страницы, суммируя вклад всех входящих ссылок

ranksRDD = 

ссылка на блокнот: https://colab.research.google.com/drive/1g5E-tqGN8u8cioUSqPNhCM5SIdxO0cLB

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...