Может ли кто-нибудь любезно помочь отрегулировать оставшийся код, поскольку я запутался в том, что касается алгоритма Google Page Rank], используя PySpark. Большое спасибо
Я сделал несколько частей:
def computeContribs(neighbors, rank):
for neighbor in neighbors:
yield (neighbor, rank/len(neighbors))
rdd = sc.textFile('network.txt').persist()
linksRDD = rdd.map(lambda x:tuple(x.split(" "))).map(lambda x:(x[0],[x[1]])).reduceByKey(lambda x, y: x+y).collect()
linksRDD2 = sc.parallelize (linksRDD)
ranksRDD = linksRDD2.map(lambda x:(x[0],1.0)).collect()
, но я запутался в расчете вклада исходящей ссылки каждой страницы.
contribs =
обновить рейтинг страницы каждой страницы, суммируя вклад всех входящих ссылок
ranksRDD =
ссылка на блокнот: https://colab.research.google.com/drive/1g5E-tqGN8u8cioUSqPNhCM5SIdxO0cLB
Спасибо