Spark读书笔记:PageRank

原文转载自 「BIHell」 (http://www.bihell.com/article/349)

预计阅读时间 0 分钟(共 0 个字, 0 张图片, 0 个链接)

PageRank算法是以Google的拉里·佩吉(LarryPage)的名字命名的,用来根据外部文档指向一个文档的链接,对集合中每个文档的重要程度赋一个度量值。该算法可以用于对网页进行排序,当然,也可以用于排序科技文章或社交网络中有影响的用户。

PageRank是执行多次连接的一个迭代算法。算法会维护两个数据集:一个由(pageID,linkList)的元素组成,包含每个页面的相邻页面的列表;另一个由(pageID,rank)元素组成,包含每个页面的当前排序值。它按如下步骤进行计算。

(1)将每个页面

more_vert