减少无效URL的爬行、收录、索引的8种方法分享!
现如今很多电子商务(B2C)“商对客”,根据用户对产品条件的需求做出了过滤系统,比如选择产品的时候会出现很多品牌、很多价格、很多尺寸、很多性能、很多型号、很多参数等。这种情况就会会产生大量无效URL,当然之所以叫着无效的URL,仅仅是从SEO的角度来看,因为这些无效的URL并不能产生SEO的作用,而且还会有负面作用,所以这些无效的URL最好是不收录比较好。为什么这么说呢,其实笔者对这些问题也比较头疼,因为其中的原因有以下几点:
经过过滤系统的很多页面的内容都是重复的或相似度极高的,这样的结果只会导致网站整体质量下降,这样的页面绝大部分都是没有排名能力的,因为搜索引擎会认为这样的页面就是一些垃圾页面。当搜索引擎爬行到的页面大部分都是过滤后的页面,就会浪费蜘蛛的爬行时间,从而造成页面收录的机会降低。
下面就来讲一下如何减少无效URL的爬行和索引:
1、将不想被收录的URL设置为动态的URL,动态参数越多越好,这样就能使蜘蛛不能爬行到甚至建立索引。
2、使用robots禁止搜索引擎收录。
3、我们可以将经过过滤的链接用AJAX的部分加载技术来展示内容,这样一来用户点击后不会访问到一个新的URL,还是在原来URL上。
4、采用JS脚本语言来实现不想被搜索引擎抓取的内容
5、还可以在页面head部分加noindex+follow标签,意思就是这个页面不要索引,但是会跟踪页面上的链接。
6、我们也可以考虑使用隐藏页面(cloaking),也就是用程序检测访问者,是搜索引擎蜘蛛的话返回的页面拿掉这些过滤条件链接,是用户的话才返回正常的有过滤条件的页面。这也是一个比较理想的解决方法,但是有可能被当作作弊,胆大的可以试用。
7、使用canonical标签,问题是百度是否支持未知,canonical标签是对引擎的建议,不是指令,也就是说这个标签搜索引擎可能不遵守,等于没用。
8、目前比较好的方法之一是iframe+robots禁止。我们可以将过滤部分代码放进iframe,等于调用其它文件内容,也即隐藏了内容。但不属于当前页面不等于不存在,搜索引擎也是可以发现iframe中的内容和链接的,还是可能爬行这些URL,所以加robots禁止爬行。iframe方法有一个潜在问题就是可能会被认为作弊。
最后总结:
对于这个严重且现实的问题,笔者也要承认一下我也不清楚。不同网站SEO的重点不同,先看问题再来分析,采用上述方法中的一种或几种应该可以解决主要的问题。而最为麻烦的情况还不是上面提到的这些,而是通过这些问题发现过滤页面后被索引,这才是最有难度的。具体如何解决后面再细细讲解。