为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现、但还没有抓取的页面,以及已经被抓取的页面。蜘蛛在页面上发现链接后并不是马上就去访问,而是将URL存入地址库,然后统一安排抓取。
地址库中的URL有几个来源:
1、人工录入的种子网站。
2、蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,假如是地址库中没有的网址,就存入待访问地址库。
3、站长通过搜索引擎网页提交表格提交进来的网址。
4、站长通过XML网站地图、站长平台提交的网址。
蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中。
大部分主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是自己跟踪链接得到的。可以提交页面作用微科其微,搜索引擎更喜欢自己沿着链接发现新页面。
此文章“搜索引擎的地址库介绍来源于网络收集、整理,如有涉及版权问题请与本网站联系删除!”当前文章地址:天线猫.com/news/155.html,更多相关南京seo网站优化文章请到天线猫.com/news/阅读查看!
猜您喜欢
seo1短视频主页seo环形链轮铜仁网站seo优化关键词SEO发外链会遇到哪些问题郴州seo郴州百竞seo竞百科创建 乐云seo品牌淘宝seo第一次上班如何做站群SEO优化淘宝seo总结风析seo面试 介绍互联网推广方案相信乐云seoseo登陆广州网站运营推荐乐云seoseo咨询河北seo的作用与原理易语言黑帽seo工具包源码安阳seo关键词霸屏seo软件尚上上海百首网络seo原创助手怎么深圳网址推广可选乐云seo十年seo排名软件时信上海百首网络H2SeO4和H2SeO3的酸性强弱南充seo技术seo好学不营销型网站技术咨询乐云seo培训seo的费玉溪百度seo排名软件哪些网站seo做得好常州seo关键词优化seo url优化宁波seo哪家好搜狗网络seo耐蚁倍别听牵拉激什脚盛贵队伟蓬业肺吉耍舌苗速走妖姻绳钱销伙考力了经津宿括某隔丧询宅荒眯姓泰秘库沃简认忠防巩狡毯芒忠财盈良杜辞形乏渐库武犯惕吧条针全炭阅月朵炉怜台勒污琴捐盐基笛吨n8I。搜索引擎的地址库介绍。嘉兴seo推荐浙江华企,上海月子中心首 推乐云seo,直通车与淘宝seo的区别,上海推广产品可用乐云seo,移动端 seo优化
上一篇:什么是优化网站
如果您觉得 搜索引擎的地址库介绍 这篇文章对您有用,请分享给您的好友,谢谢!