robots.txt文件放网站地图利于优化?教你正确配置Robots.txt文件
robots.txt文件放网站地图利于优化?教你正确配置Robots.txt文件。首先,我是用宝塔面板操作的,如果你是用ftp等其它工具操作服务器,也可以借鉴学习使用。
robots.txt文件放网站地图利于优化?教你正确配置Robots.txt文件
因为我的站点是采用Wordpress+Xenforo搭建的,而且两个站点其实是没有打通的,特别是Xenforo论坛完全是位于Wordpress的一个文件夹下。为什么我要选择如此复杂的组合呢,其实是借鉴了国外著名的4pda论坛,此论坛是使用Wordpress+Invision Power Board论坛系统搭建的,而且这两个产品的数据库已经打通了。Xenforo和Invison Power Board很像了,而且也有相关插件可以打通Xenforo和Wordpress的数据库,所以我就选择了这样的组合。但是这样的组合带来了很多问题,其中之一的问题就是网站的收录问题,也就是我遇到的问题。
在谷歌搜索框使用命令site:example.com 查看自己网站的收录情况时,我发现一些没有价值的页面,比如会员页面,会员动态页面都出现在谷歌搜索结果页了,而这并不是我想要的方式。于是我在谷歌站点地图后台 – 索引 – 删除,提交了申请移除所有会员页面,会员动态页面等我不想出现在谷歌搜索结果页的内容。这样就完了吗?这不是我写此文的目的。
我们发现了问题,肯定是要从源头上处理这类的问题,避免以后再犯。
Xenforo的站点地图和谷歌蜘蛛
Xenforo的安装文件自身不会生成Robots文件,于是我通过宝塔面板新建了一个Robots.txt的文件。这个Txt文件夹里的内容,我参考了Xenforo论坛,4pda等国外知名网站,并且根据我自身网站架构情况得出了如下Robots内容:
User-agent: *Disallow: /forum/whats-new/Disallow: /forum/account/Disallow: /forum/attachments/Disallow: /forum/goto/Disallow: /forum/posts/Disallow: /forum/login/Disallow: /forum/admin.phpDisallow: /forum/members/Disallow: /forum/misc/Disallow: /forum/online/
Sitemap: http://bbs,nga,cn/sitemap.xmlSitemap: http://bbs,nga,cn/forum/sitemap.xml
以上这个内容在这个地方可以被访问到:http://bbs,nga,cn/forum/robots.txt
同时我通过Xenforo后台的Elasticsearch搜索功能,一键重建了站点地图索引,更新了站点地图并得到了上述代码中大家看到的文件
http://bbs,nga,cn/forum/sitemap.xml
WordPress的站点地图和谷歌蜘蛛
在我的案例中,我的Wordpress没有安装什么插件,有自动生成站点地图的插件,但是却没有Robots文件。于是我就自己在宝塔面板新建了一个Robots.txt的文件。参考了好几家Wordpress知名站点的Robots文件后,我得出了我自己的蜘蛛文件:
User-agent: *Host: kuajinge.cnSitemap: http://bbs,nga,cn/sitemap.xmlSitemap: http://bbs,nga,cn/forum/sitemap.xmlDisallow: /wp-admin/Disallow: /wp-content/plugins/Disallow: /wp-includes/Disallow: /*/trackbackDisallow: /feedDisallow: /*/feedDisallow: /attachment/Disallow: /wp-content/themes/Disallow: /forum/whats-new/Disallow: /forum/account/Disallow: /forum/attachments/Disallow: /forum/goto/Disallow: /forum/posts/Disallow: /forum/login/Disallow: /forum/admin.phpDisallow: /forum/members/Disallow: /forum/misc/Disallow: /forum/online/
这个蜘蛛文件包含了Wordpress和Xenforo论坛总共两个sitemap, 同时规定了什么不可以抓取。
通过以上自定义设置,在一个文件夹里让谷歌蜘蛛知道了Wordpress和Xenforo的站点地图,同时规定了Wordpress和Xenforo论坛的抓取方式。可以说这是针对Wordpress+Xenforo的组合下目前我能想到的最完美的Robots文件组合方式。预览地址:http://bbs,nga,cn/robots.txt
看到这里,大家也可以检查下自己的谷歌蜘蛛和站点地图是否设置好了。目前我还不知道如何自定义站点地图里网址的抓取频率和权重。当然这可能需要我通过Wordpress后台去安装插件尝试。如果有知道的也可以告诉我,定当感谢。
逆向思维,反思时刻
通过观察一些网站的站点地图,我发现一些内容站,特别是新闻站的更新频率一般是一天10篇文章,有些更是一天30多篇文章, 很固定的一个频率,这可能也是人家成功的一大原因。
还有通过观察Robots文件,我发现国内知名的游戏玩家论坛NGA使用的是PHPWind搭建的,可见:http://bbs,nga,cn/robots.txt
于是,通过观察研究站点地图,Robots文件,我们可以获得以下认识:
网站最初是由什么系统搭建的(Buildwith插件也可以实现,或者谷歌右键查看源代码)
网站内容的更新频率怎么样
SEO优化,促进搜索引擎收录,并且收录你想要出现在搜索结果的内容(关于SEO优化,有两个重要的步骤,一个是发内容做外链,另外一个是促收录。而促收录除了在高权重网站发内容,手动提交给谷歌,在gindex等网站提交外,还应该反思自己的网站内部结构是否合理。并不是谷歌等搜索引擎不想收录你的网站,而是你没有告诉它。你对搜索引擎这个重要的客户并不友好。即除了向外看,还应该向内看自己的结构是否出问题了)
网站屏蔽了的那些抓取页面是什么?好奇的也可以去看一下,但是千万不要做坏事。
好了,今天的文章就分享这么多,感谢阅读。关于SEO方面可以去论坛查看更为系统性的知识,那里面更是有知识树,SEO系统化知识库。
----------------------------------
在添加本文最后一个链接的时候,我本来是想要“点我传送门”作为锚点文字,然后使用论坛链接 https://xxx,cn/forum/threads/seo.7/
但是刚刚阅读到谷歌新手指南时,我发现我犯了一个SEO错误。锚点的正确使用方法是,可能从来没有人教过我们:锚点文字要尽可能正确阐述锚点链接的内容,避免使用“点击此处”等宽泛的表述。谷歌SEO新手指南原文描述是:
-----------
选择描述性文字应避免的做法:
使用宽泛的定位文字,如“网页”、“文章”或“点击此处”。
使用与主题或链接到的网页的内容无关的文字。
在多数情况下将网页的网址用作定位文字。虽然这样做在某些情况下也合情合理,如宣传或引用新网站的地址。
文字应简明扼要
尽量使用简短但具有描述性的文字 – 通常是几个字或一个短语。
应避免的做法:
撰写很长的定位文字,如一个长句或一小段文字。
设置链接格式,让链接容易识别
让用户能够轻松区分常规文本和链接的定位文字。如果用户没有看到链接或意外点击了它们,您内容的实用性将降低。
应避免的做法:
使用 CSS 或文本样式,让链接看起来像常规文本。
想到这,原先我工作的时候写产品首发的文章,很多文章都用了“点击此处”,外部一些网站也有“点击此处”作为锚文本,实在是不应该啊。应该还是要尽量使用能传递网页信息的简明扼要的文字。