发表评论 | 点击咨询SEOQQ咨询 0 条评论 发布:程俊克 发表时间:2012-10-23 标签:
 

可以把互联网想象成一个有很多站的大型城市地铁系统。每一站相当于一个独特的文件(通常是网页,有时候可以是PDF、JPEG或其他文件)。搜索引擎需要采用某种方式来爬过整个城市,找到所有地铁站,所以他们就使用现成的最佳途径:网页之间的链接。

地铁站Embankment,Picadilly Circus和Moorgate相当于网页,它们之间的轨道连线代表着网页之间的链接。当Google(底部的蜘蛛)到达Embankment,它会看到指向Charing Cross.Westminster和Temple的链接,并且可以访问所有这些“页面”。

互联网的链接结构将所有页面连接起来。通过链接,搜索引擎的自动机器人,又称为爬行器或蜘蛛,可以接触到互相连接的亿万个文件。

搜索引擎找到这些页面后,下一个工作是分析其中的代码,然后把页面上选出来的消息存入大量硬盘阵列以便查询时调用这些信息。要存储能在瞬息间被访问的亿万网页是个相当庞大的任务,搜索引擎建造了大量的数据中心来处理这些数据。

在建立搜索引擎中关键概念之一是决定从网上的什么地方开始爬行。虽然从理论上说可以从网上很多不同地方开始,但理想情况是从一些被信任的网站开始爬行。你可以根据网站与最被信任的网站之间的点击距离来评估该网站的信任度。我们在“链接怎样影响搜索引擎排名”再详细讨论信任度在搜索算法中的作用。

阅读本文的人还阅读

1.搜索引擎是怎样检索和排名的

2.搜索引擎的工作原理:爬行、索引和排名

3.搜索引擎是怎么评估网页内容

文章作者:程俊克
本文地址:http://www.818seo.com/1306.html
郑州SEO版权所有 © 转载时请以链接形式注明作者和原始出处,尊重版权,谢谢!

发表评论

*

* 绝不会泄露