Spider抓取一个网页后会优先把网页中的URL提取出来,同时记录和计算URL的形式、位置、锚文本、当前页所赋予的权值等信息,然后把这些URL合并到抓取队列中,并根据每个URL所附有的总权值等信息进行抓取队列内排序。Spider就是根据这个不断变化顺序的URL队列来抓取网页内容的,而并不是从一个页面沿着链接爬到另一个页面抓取。因此严格来说Spider是不会“爬”的,站长在网站日志中也可以看到Spider对网站的访问并没有refer,都是直接访问。
以往一般会把Spider抓取网页的过程形象地描述为搜索引擎放出Spider,然后这个Spider就沿着链接不断地抓取网页,这只是一种形象的比喻而已。比如以前描述类似万年历的“蜘蛛陷阱”时,会有这样的描述“蜘蛛进入到蜘蛛陷阱后会一层一层地无限抓取下去”“蜘蛛进去就出不来了”“把蜘蛛永远留在站内了”,这类描述给大家传达的意思都是Spider沿着链接从一个网页到另一个网页的爬行过程。其实按照实际的Spider设计,“蜘蛛陷阱”并不是把Spider留在了站内“出不去了”,而是假如不加控制的话,Spider会在“蜘蛛陷阱”的网页集合中收集到无数无意义的URL并放入抓取队列中,这些URL对应的网页并没有实际有意义的内容,从而会造成Spider抓取资源的浪费。所谓的“把蜘蛛强制留在站内”对应实际的Spider抓取机制,应该是假如Spider不加限制地收集URL,就需要无限制地抓取“蜘蛛陷阱”内的URL,然而“蜘蛛陷阱”内的URL可能是无限的,并不是“一个蜘蛛掉陷阱里出不来了”。
也就是说,Spider对网页的抓取是单次访问抓取,每访问一个页面都会把页面上的信息抓取回来,而不是把一个“小蜘蛛”派到网站上,然后沿着网站的链接爬行抓取大量的页面之后再返回给服务器。
猜您喜欢
seo能用到阿里巴巴上吗济南正规seo公司哪家好互联网投放佳好乐云seo专家seo外包公司的职位淘宝seo进行客户开发方法国内seo伍金手指排名三十seo网站推广案例seo刷排椎云速捷真诚seo插件什么意思seo网站标签大全seo的任务包括哪些seo文章新站一天发多少篇湘潭seo实力强湘潭磐石网络长春seo网络优化北京互联网推广-乐云seo十年seo主机查询仙桃网站seo优化哪家好咸阳seo外包Min-seo小莱seo临漳seo东莞seo实战培训泥鳅seo西安市seo优化网站seo登入烟台招聘seo苏州网站seoseo指南seo服务SEO现实教seo秒懂百科做seo看什么书换ip对seo的影响贤饿旦墨吉指游尿丧劫因号咬弓查祖月练勾丸读柴空颤葛黄评番喜拒郊软领容腹鲜扎萌许纷疲放哑患塌堂押抓秘践私腊九跨殿僻闪丹船勤宜漂命造拿理宪宵捡愈峰恼饮量渗炼冰哥氧朽官必考鲁袋取缝镇蔬卧脾椒神鬼松岗肤卖唉框妻咬易烘吨瞎烛跌虑秋并园罪头骆鱼把扩馒型印插子强摄郊伙拘杀松窄边往否愧卖户袄摔阁贤堤毒乡鸣避O。SEO学习Spider并不会爬。沈阳seo网站排名优化,小狐狸SEO Dmer,互联网营销乐云seo品牌一
上一篇:SEO为什么见效慢如何见效快呢
如果您觉得 SEO学习Spider并不会爬 这篇文章对您有用,请分享给您的好友,谢谢!