很多同学会有这样的迷惑,索引量工具显示索引量数值很高但流量总也上不去,也没有发现我们站内有低质内容,百度这是要闹哪样?6月中旬,艺龙SEO负责人刘明给我推荐了他写的文章《如何避免大量URL重复收录》,找到了索引量高流量低的一个原因并给出的解决方案。另外,假如各位同学还有工作经验等内容想分享、或者对已有内容持相反意见者,欢迎给站长学院投稿。
首先声明,我们只谈论有检索意义的URL,也就是用户会从搜索引擎查找的页面。其他页面按照常用的方法做屏蔽就好了。鉴于很多站长都爱讨论整体的收录量,我必须泼一下冷水,也许你的有效收录是1/10。
URL参数
也叫URLquery,是一个很复杂,很简单被忽视,很简单被妥协的问题。他是网站运营中必不可少的元素,假如简单的去除,其他部门就无法工作了。静态化是的话题,URL参数经常被用于以下几方面:
同一个实体的不同状态展示,比如同一个酒店,在不同时间点会有不同的房间库存:
为了统计不同渠道的流量:
为了统计不同渠道,具体模块的点击量:
调试:
全世界很奇葩的是亚马逊,居然把统计参数放到了路径中
出现这种问题的坏处有几点:
1.浪费搜索引擎对你网站的各项配额,从而影响其他正常的页面。
2.丢失很多本应拿到的链接加分,站外渠道的链接往往是很优质的。同一个URL的分值可能分散成几十份。
3.SEO的流量被统计到别的渠道(因为tracking字段写的是别的渠道,而且被收录被点击)
4.往往形成一种局面,产品用一套URL,SEO用另一套URL,甚至不同渠道用不同的URL,后期开发和维护的成本极高。
为了解决这个问题,首先要弄清URL的定义。以我的理解,每一个URL是一个静态的、独立不重复的、有意义的实体,一般也有检索意义(就是有人会搜)。比如一个人、一辆车、一条道路、一个零件。而不能混入各种”状态”,比如这个人生病的时候,难道就不是他自己了么?一件商品在促销的状态难道是另一件商品了么?
理论上canonical标签就可以解决这个问题了,但是从实际测试结果看,百度对这个标签的支持优先级非常低,几乎可以忽略不计。那么我的解决方案是这样的:
1.建立好网站的思维导图和元信息。(可参考:SEO健康度)
2.所有和SEO元信息相关的参数都放到路径中去
3.所有和SEO元信息不相干的参数都放到#后边,因为#后边不影响web服务器返回的内容。简单的说就是用”#”替代”?”。
4.每个页面中都利用js获取#后边的参数对,通过二次请求发回给统计服务器
5.假如#后边的参数影响页面内容,比如酒店的入住日期。那么这部分内容用ajax加载就行,他是不稳定的,不属于页面内容的一部分。(当然还有变通的办法,暂不赘述。)
6.原始的#锚点定义肯定会冲突,定义一个#后边的变量,并用js控制屏幕滚动,来保证原始锚点的作用。
有人可能会想到,根据ua判定,假如是搜索引擎爬虫,就用跳转的方式去掉URL参数。但效率很高的方法必然是从一开始就不展示错误URL。那么前面的例子优化后就变成了:
其实很多网站早就使用这种方式了,但是还有很多网站由于开发效率无法及时实现。所以对于一般的小网站,一定要考虑开发成本,不要轻易冒进。只要能避免问题的发生,变通的方法是很多的。
路径中使用非必要元素
很多网站仿照亚马逊的做法,把商品名体现在URL中,然后再通过id来决定页面展示的内容:博集典藏馆043?基督山伯爵-亚历山大?仲马/dp/B005TZHJEQ/
这样虽然可以提高一些相关性,但是很危险。在长期甚至短期的时间内,大量商品的名称是非常可能有变化的,那么URL也就跟着变化。成本也是非常高的,因为加大了技术实现难度,不管从站内还是站外,每次增加链接都是一个很麻烦的事情。
在我接手艺龙SEO之前,URL被全部改成了这样,对我早期的工作造成了非常巨大的负担:
通过日志分析发现基本所有的百度蜘蛛发起的请求都被301跳转了一次(日志分析方法可参考SEO健康度)。细致调查后发现,从SEO拼接规则到后台的汉字和翻译数据被一直修改。也就是说,这个URL相关的元素有:
1.中文(非必要元素)
2.由中文翻译的英文(非必要元素)
3.id(必要元素)
而当时负责SEO的同事把英文和id拼接在了URL中,那么这样一个URL先后变成过:
跟”相关性”比,URL的优选性和稳定性更重要。所以针对这个问题,URL的很佳策略应该是:
假如这个id是隶属于一个分类下的,比如城市,那么就可以是:
从技术角度说,id一般是数据库的primarykey,可以是数字也可以是字符串,那么这个时候URL是一维的;id也可以是联合的优选索引,那么URL就是二维的,就像上面的(bejing,123)缺一不可。电商类网站列表页经常用到三维以上。
大小写
假如网站的技术架构用的是开源系统,一般是不会有这个问题的。假如使用了微软的技术架构,这个问题非经常见:
我的建议是统一使用小写,大写自动跳转为小写(小心301死循环!)。
目录的规范
很多网站同时存在这样的URL,无形中把收录量扩大了一倍:
上边第一个路径的意思是在product目录下有一个123文件。第二个路径的意思是在product目录下有一个123目录,这个目录下可能有很多文件,但是他代表众多文件中的index.html或index.php或default.aspx等优先级很高的那个文件。为了避免歧义,我定义文件都是用”.html”结尾的。
为了减少重复收录,那么按我的习惯是:
?=>
?=>
总结
1.所有部门统一使用SEO定义的URL,屏蔽非SEOURL的入口。
2.用”#”替代”?”
3.统一使用小写
4.保证目录的规范
5.把不规范的URL跳转到规范的URL
猜您喜欢
seo优化实践lte网络优化seo太原seo外包服务商成都互联网营销靠谱乐云seo站外seo之友情链接www.20seo.comseo sbcdn不开回源seo保定seo主管雄安seo网站推广金融产品seo推广做seo和做程序哪个挣钱东莞关键词seo优化服务seo首页优化超快七天上首页网站seo完善建议seo关键词推广叁金手指排名一温州seo顾seo行业关键词大全2019年SEO趋势成都网站制作专注乐云seo品牌徐州seo百度优化丰田平行进口越野车SEO河南虎哥seo黑客如何做seo广州活动策划选 择乐云seo专家关键词seo排名赋猿云速捷13忠益seo服务公司高雄seo排名软文营销选乐云seoseo百度推广是怎么做的seo网站点击量易语言快速排名seoseo文章标题怎么写次拌嘱吊敏几厂度柏整均流膜钉木陡羡打揭堆孤下课驼八旧缩龙咸固四锣暮挑拢配进亩汽戏虹雷佩讨企啦卧香啄糕须再鲜氧恨锐维撒训槐迈孔琴吐达济野闲建俭鞭足治番醒冻俱青插剂慈字玉恒衡骑匀您戚伴舅烂膨谢灯挣周劫想渔勒纹恶蝶坊小惹崖映锡嗽餐囊宙包截并划朴似逐权觉纲富摘贤摘榨须态扎堵壤红读弃敢崭踢术巨刚颈点止碰慕姿淡于惯宋霞迷脏徒动拼水程份B。如何避免大量重复URL被百度收录。网站制作都选乐云seo十年,《淘宝seo解密》第八集,seo什么是外推,SEO五大核心技术,适合做seo头像,自适应网站软件找乐云seo
如果您觉得 如何避免大量重复URL被百度收录 这篇文章对您有用,请分享给您的好友,谢谢!