搜索引擎技术原理之建立索引


建立索引

百度搜索索引技术:

百度对抓取回来的内容会逐一进行标记和识别,并将这些标记进行储存为结构化的数据,比如网页的tagtitle、metadescripiton、网页外链及描述、抓取记录。同时,也会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。

google搜索索引技术:

Googlebot会处理所抓取的每个网页,将其找到的所有字词和这些字词在每个网页上的位置汇编成一个包含海量内容的索引。此外,我们还会处理关键内容标记和属性中的信息,例如Title标记和Alt属性。Googlebot可处理多种类型的内容,但并不是所有类型的内容都能处理。例如,我们无法处理某些富媒体文件或动态网页的内容。

了解一下什么是富媒体:

富媒体,顾名思义就是包括内容形式多样的媒介表现,包括声音,图片,影像等,给您带来全方位感官的接触,最大效果的达到效果。

富媒体包括多媒体(二维和三维动画、影像及声音)。它包括HTML、Java scripts, Interstitial间隙窗口,Microsoft Netshow、RealVideo,和RealAudio,Flash等等,随着技术的进步,名单可能会进一步加长。

1347439889_1153.jpg

这张图片很重要,读懂他,有大大的好处。

SEO应用:

由此可以在SEO的过程中避免把重要的内容用图片,flash,JavaScript来展示,尤其是一些B2C网站的商品页描述,很多网站都是用图片来进行展示,那么图片中的文本就无法索引到数据库中,其中的长尾词就没机会匹配到,另外用JavaScript调用的相关文章,热门文章等搜索引擎也无法索引,大型网站的流量有一大部分是通过长尾词带来的,而这个长尾词并不是很多人认为的只是在标题中出现的长尾词才会背匹配到,只要文章(页面)中的文字被索引到数据库中就有机会被匹配到。小网站这种匹配到的几率很小,所以很多人没有感觉,中大型网站内容量在几十万的时候就能够通过数据分析到,如果熟悉google analytics的人对中大型网站进行分析就会发现,有很多长尾关键词一天就带来一个IP,或者几天才带来一个IP,但是由于内容量巨大,匹配的机会就很高。假设有50W内容,只要10W个页面带来一个IP一天,那么也能有10WIP了,当然这时候不仅仅只有长尾关键词有流量,一些竞争力度大的关键词也会有排名,那么流量就不只10W了。

所以可以看出了解搜索技术原理是非常的重要,原理理解清楚了,技术上实现就很简单,只需要让编辑部门改变一下工作方式即可(当然这个过程会影响到页面的美观,所以这时候就靠沟通能力拉,所以要做好SEO不是要仅仅懂SEO的拉),然后剩下的就是配合编辑部门认真把内容做起来(这个可不容易,但依然有办法)。
已邀请:

要回复问题请先登录注册