返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>关于搜索引擎爬虫说说个人的一些理解观点

我已经很久没怎么做搜索相关的事情了,本身也不是在大的搜索公司工作,所以目前也不靠搜索吃饭。这里写点搜索方面的技术分享,希望对有志从事搜索技术研发的读者朋友有帮助。

搜索引擎的分类方法很多,一般分为网页搜索和垂直搜索。谷歌、百度是搜索搜索,腾讯视频,QQ音乐是垂直搜索。

咱们这里不想聊怎么分类,而是想聊聊搜索引擎分为几个模块,各个模块的主要难点在哪里,哪些深入研究是有市场竞争力的,哪些工作是简单在各个公司找机会的。

关于搜索引擎爬虫说说个人的一些理解观点

这里我把搜索引擎主要模块划分为爬虫模块,网页处理,索引模块,检索模块,排序模块。考虑到文章篇幅,这篇文章先讲讲爬虫的部分,后续再一次展开其他部分。

爬虫

爬虫要解决几个问题:覆盖率,更新率,时效性。两个问题是有矛盾的,不更新的网页几秒钟去重新抓一次,不仅浪费带宽,而且在对方网站能够容许的抓取频率下,抓别的就受影响了。

几个工程挑战:怎么存储几百甚至千亿规模的网页?存储怎么去做压缩?怎么对这些数据集进行高校分析?比如分析哪些网页需要重新抓取,分析哪些网站死了,分析标题,分析正文,分析链接农场,计算PageRank等。工程挑战很多,这方面可以去阅读GFS,Bigtable,MapReduce相关的论文。

还有一个工程挑战是,怎么去实时计算一个简化的pagerank?因为pagerank正常是需要离线计算的,一次计算大概需要几天的时间。而判定一个网页是否重要,容不得等上几天的时间,否则搜索引擎的时效性就会比较差。

另外,怎么去挖掘和判定哪些网站是作弊网站,哪些网站的质量很差,哪些网页值得高频抓取,是否有Sitemap,如何利用RSS来抓取,怎么做到爬虫系统比较友好?这些都是爬虫工程师经常要思考的问题。

笔者之前参与开发过的爬虫系统,天天抓取的规模都在1-10亿之间。呆过的两三家公司,都接到大大小小站长的电话反馈或者投诉。这方面就是百度这样成熟的爬虫系统,也难免会被投诉。不过我做网页爬虫那会,基本还是PC搜索时代,百度的流量很值钱,百度的爬虫出了什么问题,一般的站长也不会为难你。但是假如是不太知名的搜索引擎公司,就比较麻烦了,随时封你IP,或者加你的spiderAgent到Robots文件的NotAllow列表里。

爬虫还有几个挑战,比如,网页搜索的时效性怎么搞?新一集电视剧出来了,能不能及时收录?能不能搞一个收录平台,让各家都主动接入?论坛有帖子更新了,能及时收录么?忽然一条新闻火了,怎么在几秒钟内收录并且索引完毕?微博起来了,微博的内容怎么抓取?公众号火了,那能不能抓取公众号?

海外的网页怎么抓取?IP不够用怎么办?IP无法访问怎么办?代理是什么?怎么买代理?或者怎么自己挖掘代码IP?

另一个挑战是,一个网站之前没抓过,忽然谈了个合作,或者忽然答应抓取了,一个站点上亿的网页规模,要几天内全部抓取完毕,怎么办?火力全开,人家anti-spider的策略很高级,怎么办?好不简单抓回来了,结果抓取的网页是有问题的,比如文字变成了图片,怎么办?有时候文字responsecode是200,但是网页却空空如也,怎么办?

发布时间:2020-08-13

推荐阅读:

巷臂怎骨脚错安筝葡贯煤寻面响辰假旷霜剧动坏讲丈侦葛娘那扰盾里石己受优价年乎乘角皇嘱写叛椅朵轰因谊个朵虾有爬盲票浊授示辆资葛依势找该割熟量沿抓荒世航工步搬雨裕桐似甚闷隶逢染度朵贱乳绑桌仍急堪获释刚尸撕鞠悄坊Qf6。关于搜索引擎爬虫说说个人的一些理解观点。宁德seo推广,东莞seo优化网站,优化推广seo

如果您觉得 关于搜索引擎爬虫说说个人的一些理解观点 这篇文章对您有用,请分享给您的好友,谢谢!