搜索引擎技术原理之过滤


过滤

互联网中并非所有的网页都对用户有意义,比如一些明显的欺骗用户的网页,死链接,空白内容页面等。这些网页对用户、站长和百度来说,都没有足够的价值,因此百度会自动对这些内容进行过滤,以避免为用户和您的网站带来不必要的麻烦。

SEO工程师常见问题:

为什么文章秒收录后,隔天会被删除?分析这个问题有可能是网页内容基本是采集的导致搜索引擎信任度不高,大量重复的页面会被搜索引擎去重。

为什么大型网站转载不会被搜索引擎去重?因为大型网站已经积累了相当大的权重,搜索引擎已经信任了,另外大型网站的大部分内容是原创的,少量的转载不会影响到网站的权重。所以有时候大型网站转载的文章会比原创的小型网站排名还高。

知识扩展:搜索引擎网页去重算法

相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统(蜘蛛抓取系统)中,30%的网页是和另外70%的网页完全重复或近似重复的。

即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!

对一个新的网页,爬虫程序通过网页去重算法,最终决定是否对其索引。
搜索引擎整体架构.jpg

近似重复网页类型,根据文章内容和网页布局格式的组合分为4种形式:

一:两篇文档在内容和布局格式上毫无区别,则这种重复称为完全重复页面。

二:两篇文档内容相同,但布局格式不同,则这种重复称为内容重复页面。

三:两篇文档有部分重要的内容相同,并且布局格式相同,则这种重复称为布局重复页面。

四:两篇文档有部分重要内容相同,但布局格式不同,则这种重复称为部分重复页面。

重复网页对搜索引擎的不利影响:
正常情况下,非常相似的网页内容不能或只能给用户提供少量的新信息,但在对爬虫进行抓取、索引和用户搜索 会消耗大量的服务器资源。

重复网页对搜索引擎的好处:
如果某个网页重复性很高,往往是其内容比较比较受欢迎的一种体现,也预示着该网页相对比较重要。应予以优先收录。当用户搜索时,在输出结果排序时,也应给与较高的权重。

重复文档的处理方式:
1.删除
2.将重复文档分组

通用网页去重算法:
通用网页去重算法.jpg

SimHash文档指纹计算方法 :
SimHash文档指纹计算方法.jpg

1)从文档中提取具有权值的 特征集合来表示文档。如:假设特征都是由词组成的,词的权值由词频TF 来确定。

2)对每一个词,通过哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图,以生成8位的二进制值为例。每个词都对应各自不同的二进制值。

3)在N维(上图为8维)的向量V中,分别对每维向量进行计算。如果词相应的比特位的二进制数值为1,则对其特征权值进行加法运算;如果比特位数值为0,则进行减法运算,通过这种方式对向量进行更新。

4)当所有的词都按照上述处理完毕后,如果向量V中第i维是正数,则将N位的指纹中第i位设置为1,否则为0。
已邀请:

要回复问题请先登录注册