什么是蜘蛛?蜘蛛的工作原理
什么是蜘蛛?搜索引擎用了爬行和访问页面的程序叫做蜘蛛(spider),或者成为机器人(bot)。搜索引擎蜘蛛访问网站页面好比用户使用浏览器一样,当蜘蛛程序发出访问页面的请求后,服务器将返回HTML代码,蜘蛛再将代码存放页面数据库中。搜索引擎提高爬行和抓取速度,会使用多个蜘蛛分布爬行收录,当蜘蛛访问任何网站的时候,首先访问网站根目的的roobts.txt文件,如果roobts.txt文件中含有禁止蜘蛛抓取的页面,蜘蛛将遵守原则,不抓取禁止的页面。
蜘蛛简单的爬行策略大致分为两种,一种是广度优先,另一种是深度优先。所谓广度优先就是当蜘蛛再一个页面发现了多个链接的时候,不再顺着一个链接一直爬行,而是把第一层所有的页面爬行完之后,在延续第二层的页面爬行,当第二页面发现链接又顺着爬行第三层的页面;深度优先则是指蜘蛛一直往前爬行,直到没有链接之后,在返回第一个页面,沿着另外一个链接继续往前爬行。
不管是广度优先还是深度优先,其目的还是抓取网页,只要蜘蛛的时间够多,都能爬行整个互联网。在实际的工作过程中,蜘蛛的时间、带宽并非是无限的,不可能完全爬完所有的页面,所有的搜索引擎只是爬行和收录互联网的极小的一部分。通常来讲,广度优先和深度优先都是混合使用,这样尽量照顾到了更多的网站,也能照顾到网站的一些内页。
» 本文来自:浪边SEO博客 » 《什么是蜘蛛?蜘蛛的工作原理》
» 本文链接地址:http://www.rrrrrr.net/seo-knowledge/what-is-a-spider-spider-works/ » 英雄不问来路,转载请注明出处,谢谢。
» 有话想说:那就赶紧去给我留言吧.
» 您也可以订阅本站:RSS 2.0
Tag:
蜘蛛
目前盖楼 (0)层:
发表评论 »
« 搜索引擎与目录的区别
网络品牌的定义 »