0

搜索引擎的HITS算法原理讲解与应用

已有291人阅读此文 - - HITS算法 - 西风SEO

HITS算法其全称是Hyperlink Induced Topic Search,它是连接分析中非常基础而且很重要的算法,并且被搜索引擎Teoma作为连接分析的算法在实际中进行使用。HITS算法是由康奈尔大学的JonKleinberg 博士于1998年首先提出的,为IBM 公司阿尔马登研究中心的名为“CLEVER”的研究项目中的一部分。 当前搜索引擎优化研究者对HITS算法讨论的较多,这种HITS算法在Web结构挖掘中具有着较高的权威性,并且其使用也是较为广泛的,这个算法是一种非常重要的网页重要性分析算法。HITS算法主要是根据网页的入度与出度来衡量一个网页的重要性的,其中网页的入度指的是指向这个网页的超链接,而出度则是指的这个网页指向其他网页的超链接。HITS算法其具有的最直观的意义就是网页重要性的相关性,也就是指的如果一个网页具有很高的重要性,那么这个网页所指向的其他网页也具有较高的重要性,同时如果这个重要性高的网页被其他的网页所指,那么指向这个网页的其他网页也具有着较高的重要性。

搜索引擎的HITS算法原理讲解与应用

百科的描述:

HITS算法,是在用户搜索后开始运行,其核心思想是建立在页面链接关系的基础上,对链接结构的改进算法。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。HITS算法的目的是当用户查询时,返回给用户内容权威度更高的页面。

一、什么是Authority页面(权威页面)

简单来说Authority页面(权威页面)是指在某一个领域范围内或者某一个相关主题范围内的高质量网页。比如招聘领域,前程无忧网站的首页就是该领域的一个高质量优质网页。比如淘宝首页就是电商领域的优质网页。

二、什么是Hub页面(枢纽页面)

而Hub页面(枢纽页面)通常就是它页面本身包含了很多高质量的Authority页面的链接,比如360网址导航首页就是一个非常好的Hub页面(枢纽页面)。因为在360网址导航的站点页面里面聚合了众多的不同类型的权威站点集合,比如新闻板块聚集了新浪、腾讯等权威站点。视频板块聚集了搜狐视频、优酷视频等权威站点。这个点和大家经常发布的一些分类目录网站外链有点类似(所以为何网站目录外链还存在一定的效果,正是因为搜索引擎本身有自己特有的算法才会影响到你的排名)。

HITS算法意义

之所以存在HITS算法,是因为搜索引擎需要在全球所抓取的网页文档集合当中找到与用户搜索请求查询词匹配度与之相关最高的页面进行符合匹配,而这里的匹配度相关最高的则是一些高质量的“Authority”页面和“Hub”页面,而不是大家常常理解的站内文章优质原创等因素。尤其是一些权威页面,搜索引擎更加亲耐,因为这类站点页面的内容会更加满足用户查询的内容。

有很多朋友可能会问到一个问题,如何成为权威页面或者枢纽页面呢?

其实枢纽页面在前面从概念意义上解释来说已经告诉了大家如何去成为枢纽页面。比如360导航网站的某一个站点类型的聚合页面,再比如网站分类目录站点的某一个站点类型的聚合页面,这些都属于枢纽页面,但是枢纽页面也会分为高质量枢纽页面和一般性枢纽页面。比如360导航网站首页不仅是枢纽页面并且还是导航站点的权威页面。

360导航页面

那么又如何成为权威页面呢?

这里就会提到大家想要理解的一个深层次的东西了,所谓的高权重外链其实可以理解为高权威外链,即权重=权威。搜索引擎针对每一个站点和该站点的每一个页面都有一系列的网页评分,而这类评分决定着页面的链接是否为有效的信任度。而权威页面往往会有几个特点:

1、品牌属性

不管是某一种类型的站点,一旦要想成为行业的权威,品牌属性必定浓厚,这点大家可以从百度搜索引擎的知心算法可以得知。如当用户搜索网上商城会联想到京东、天猫;再如当用户搜索空调会联想到海尔、格力、美的等知名品牌。正是因为这类品牌属性,可以让这类品牌官网站点在某一个行业领域形成独特的权威度。但是,对于搜索引擎而言,这类品牌属性搜索引擎是感观不到的,而用户却可以知晓。因为对于用户而言,用户可以通过报刊,电视等多媒体方式了解到这些品牌的循环曝光,从而积累品牌的印象程度。那么搜索引擎是如何计算出这些品牌属性的权威程度呢?针对搜索引擎来说,搜索引擎会通过全网抓取技术检索全球所有网页集合,根据文档检索模型计算出词频,而词频计算出来的相关词频次结合度最高的一类词就是一个主题的符合度。通常情况下,是行业产品词+品牌词检索。

2、历史属性

历史属性我们可以称之为信任度属性,何为信任度属性,简单的理解就是一个权威的站点必定是本身的页面存在一定的真实性、可靠性的价值信任信息,就如百度百科的词条会有对应的参考资料来作为参考佐证,从而针对内容进行信任度提升。所以即使内容不是原创,如果页面满足了信任度属性,你的内容一样非常有价值,也利于搜索引擎优化。信任度属性除了信息价值信任之外还有一点就是历史数据积累,这点在老域名站点体现的非常明显。越老的站点信任度属性就体现的越明显,比如做一些灰色产业或者做医疗的SEO人员就非常喜欢采用使用过的并且干净底子的老域名进行优化效果最佳。

3、曝光属性

权威页面除了品牌属性和历史数据积累等属性还有一点就是曝光属性,这类曝光属性会包含两个大类,其中是站内曝光属性和站外曝光属性。站内曝光属性可以理解为页面收录量,一般情况下,当一个域名使用了10多年,每天都在充实着一些主题非常一致的优质枢纽页面的时候,那么自然而然他的曝光也会放的很大。而站外曝光属性就是在整个互联网站点文档集合里面所体现出你品牌属性的词频集合和关键词主题一致的文档数量,比如阐述淘宝的网页相关结果数有X亿个网页。而X亿张网页集合里面和淘宝相关度最密切的是关于电商、商城、网购等主题行业词汇。那么通过历史属性的数据积累,淘宝站点在电商领域归属于权威站点。

实现HITS算法的步骤

要实现HITS算法,就必须要先对与主题相关的网页集合进行判别,同时还需要根据用户所提交的查询条件来判定出一个与之相关的网页集。在HITS中判定网页是否与主题相关主要是根据以下条件:(1)这些网页都必须要属于一个网页集合,同时这个网页集合之中必须要包含有与用户查询相关的文本;(2)这个集合中的网页需要链向满足(1)条件的网页,或者是满足(1)条件的网页链向这个网页。

在这里有一个假设,就是基于“链接――内容”假设的。假设网页只会与自己网页主题相关的网页具有链接关系,这里也包括了那种可能与主题相关但是网页中的具体内容不包含有与主题匹配的文本信息的网页。

这就面临着一个问题,那就是在实践的过程中,有时会遇到那种难以判别相关性的主题,因为有的网页的文本内容与查询信息相关,但是主题却有可能不相关,特别是有的查询本身就具有歧义性。

做好上面的工作后,HITS算法的实现就进入第二部分。分别为与主题相关的集合中的每一个页面计算出各自的中心度和权威度。在计算中心度和权威度时HITS算法采用的是投票方法,并且通过逆向投票机制来确保每一个网页都能够为链向它的其他网页进行投票。这样每一个网页都被赋予了一个中心度和一个权威度。

HITS算法缺陷与解决方法

HITS算法将网页的内容权威度与链接权威度是进行分开考虑的,以内容权威度作为评价基础对页面的链接权威度进行评价,最后才是进行综合评价。不可否认的是HITS虽然有着广泛的应用,但是其也有着较为明显的缺陷。

1、由于该算法完全针对链接结构,并不针对文本,因此对于页面权威性的判断是存在问题的。一个页面内容有限,因此权威性必定是针对某一个主题,在别的无关主题讲道理就不会具有权威性,而且引用转载别的页面在现实情况下,会存在商业目的,在该算法没有考虑以上情况的条件下,存在弊端是必然现象。

2、太容易作弊了。假设我们生成一个页面a,这个页面a指向很多个高质量的内容权威度(Authority)页面,那么这个页面a的(Hub)值就会非常高,那我再在a页面上增加一个自己的垃圾网页b,这个b页面的内容权威度(Authority)也会非常高,因此存在弊端。

3、对链接稳定性要求比较高,一个链接的删除可能会影响比较多网页的(Hub)和(Authority)值。

4.由于HITS算法是与之查询相关的算法,所以不能先计算,而必须是用户请求了某一个搜索词以后才能去计算该词的一些站点文档匹配度(链接评分板块),加上HITS算法的计算属性需要通过多次的计算迭代才能最终计算出检索结果的文档链接的推荐度投票,所以导致计算效率比较低下。

5.而主题漂移问题则是大家常常可以看到了一些现象,即使我交换的链接和我站点主题没有一条相关,但是也会促进我的页面关键词排名提升。而这种现象正是因为HITS的特殊算法结构才出现了给与这些无关网页很高的排名。最终导致了搜索结果发生了主题漂移,而这种现象也称为“紧密链接社区现象”。

hits是存在着很多问题,但是我们不能全部解决,比如计算效率低,hits需要一个周期对我们所做的文本链接做计算,通过筛选计算然后进行提权,所以需要周期的,但对于一些其他问题我们可以做出相应的解决。问题解决方法如下:

1.学者们都进行了研究并分别提出了解决的方法。对于第一个问题的解决方法是对超链接的权值进行计算,这个权值是根据超链接的文字及其周围文字与关键字的匹配程度计算的。与此同时还引入了系数来对权值进行相对的控制。通过这样的方法就考虑到了页面的文本信息,从而使得算法更加的可靠。

2.在HITS算法中并不能有效的区分引用链接,从而导致结果与目标的出入。为此可以引入一个时间参数,通过对链接引用的时间长短来进行判断这个引用是否是正常的引用。这样做的原因是如果是非正常的引用,那么引用的时间就不会很长,而如果是正常的引用,那么必然会是一个较长时间的引用。通过这个时间系数,HITS算法能够将那些非正常的引用进行一定程度的筛选。同时利用这个时间系数的构造还能够对权威页面的大小进行控制,例如当随着访问时间的增加,可以使页面的权威性呈非线性的增加。这样就能够使得HITS算法更加的合理,而通过其计算所得出的权威页面也会有一个更加科学合理的解释。当然这样也就使得稳定性变得十分的重要,使得各个网页在建设外部链接时需要考虑到稳定性。

从分析中不难看出HITS算法在很大程度上来讲是一种带有试验性质的尝试性算法,与实用性的算法相比肯定有很多不合理的地方。从前面的分析来看它在检索时都需要先面向内容进行检索,然后才能够基于内容检索的结果页面进行对这些页面之间的链接关系进行计算,这种计算法在检索时显得过于复杂,进而需要牺牲更多的计算时间,因此在实际运用上存在着难以克服的困难,也正因此其使用范围与实用性更强的PageRank等算法等都存在着一定的距离。

hits实际应用中的问题

(1)为什么外链要一段时间后才能生效

因为HITS算法是与查询相关的算法,所以必须在接收到用户查询后实时进行计算,而HITS算法本身需要进行很多轮迭代计算才能获得最终结果,这导致其计算效率较低,这是实际应用时必须慎重考虑的问题。通俗点理解就是当一条外链发布出去以后,搜索引擎当蜘蛛抓取到该链接以及锚文本值的同时就马上计算该链接的推荐度分值(包含具备推荐度加分和不具备推荐度加分以及减分,减分情况如作弊链接等),但是由于Hits算法的迭代性,不会直接一次性计算后立马进行链接加分操作,而需要大量的重复链接迭代计算然后进行最终的加分结果,所以很多情况下,发布的外链所看到的效果需要等待一定的时间段才能看到排名效果。之所以需要进行迭代计算,是因为搜索引擎需要考虑到链接的稳定性,以及外链的页面是否具备推荐度(比如相关性、权威性等)等多个因子综合迭代计算,不同的搜索引擎迭代计算的周期也不同。

(2)为什么不相关的外链或是友情链接也可以提升排名?

如果在扩展网页集合里包含部分与查询主题无关的页面,而且这些页面之间有较多的相互链接指向,那么使用HITS算法很可能会给予这些无关网页很高的排名,导致搜索结果发生主题漂移,这种现象被称为“紧密链接社区现象”(Tightly-Knit CommunityEffect)。通俗点理解就是指交换的友情链接并不相关,但是这类链接会互相交换链接,而由于Hits算法所存在的缺陷会导致这类站点的链接进行推荐度加分,所以链接不相关也会引起排名提升,但是相对而言,相关性的友情链接比不相关的友情链接在Hub页面上更加具备推荐度。

(3)如何利用HITS算法作弊?

HITS从机制上很容易被作弊者操纵,比如作弊者可以建立一个网页,页面内容增加很多指向高质量网页或者著名网站的网址,这就是一个很好的Hub页面,之后作弊者再将这个网页链接指向作弊网页,于是可以提升作弊网页的Authority得分。比如右图所示,一个台球桌网站A,指向了不相关的混凝土网站、品牌策划网站、以及新浪等权威站点。那么通过Hits的算法所存在的问题我们可以发现,该特征不仅显示了Hits算法的紧密链接社区现象,另一点则是台球桌站点形成了高质量的Hub页面,从而可以对不相关的混凝土等站点进行推荐度加分。(4)为什么外链需要具有稳定性?

所谓结构不稳定,就是说在原有的“扩充网页集合”内,如果添加删除个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。这也是为何大家常常说发布的外链需要讲究稳定性,而稳定性的链接是出之于搜索引擎Hits算法当中。

(5)大招:外链通常讲的广泛性、稳定性、权威性、相关性原因在哪里?

稳定性上面讲了,为什么要广泛性或是说多呢?因为页面越多,迭代的值越大。权威性和相关性呢?权威值越大,他的authority就越大,指向一个页面的pub也就越大,相关性,越是相关,给的分也就越大。

如何做有推荐度、高质量的外链,基本就明白了。

1、使外链page具有比较高的pub值,如指向一些高质量站点,如百度、搜狗等

2、提高外链page的authority值,可以给外链站点加一些外接或是什么,有条件情况下。

3、如外链不可控,如发在sohu自媒体上,可以在页面上发相关文章,并且相关锚指向。

结束语:

HITS运用的比较不错的是bc站点(bc站点是什么?自己去科普去。)做bc只要链接不是垃圾站点 是健康站 每一条链接都是一个好的hub页面 每一个链接都是高质量 管他相关不相,虽然HITS算法只能算作是一种试验性质的算法,并且有着很多难以克服的缺陷,但是其本身所具有的严谨性与迎合客户的算法思想,都使得学术界和产业界给予它很高的评价和广泛的关注。而且相对而言,通过对HITS算法的不断研究,相信能够为更多的研究者提供更多的灵感,同时也能够为国内的搜索引擎的发展带来更多有利的影响。当然刚才讲的是大的环境,对于seo网站优化而言,不仅仅要了解并使用HITS算法,还要知道其他的算法:HillTop算法、SALSA算法、PageRank算法等等,在比如还有文档检索模型(包含向量空间模型、概率模型、布尔模型等),在比如还有倒排索引、TF-IDF等,其实这类算法在百度上都可以找到他们对应的透明的计算公式(涉及到高等数学),如果你能够前行研读和深究的话不难发现一些SEO排名的奥秘所在。


更多>>评论

发表