2014-06
20

向百度等搜索提交站点地图Sitemap和robots.txt细节


        每个做网站的站长都知道,百度、谷歌等搜索引擎的收录对于一个站点的流量来说有着非常重要的作用。所以每一个站长也都在不断优化站点的内容,已便各大搜索引擎可以更快更多地收录自己的站点。今天桑三博客就给大家分析下“向百度等搜索提交站点地图Sitemap和robots.tx”需要注意细节问题。

 

一、Sitemap文件

         Sitemap翻译为中文就是站点地图,主要就是用于告诉百度谷歌360等搜索引擎需要抓取的内容。该文件一般有三种格式:html、xml、txt。网上也有很多在线生成Sitemap,大家可以尝试去给自己的站点生成一个xml格式的Sitemap文件。然后将该文件上传到站点个的根目录,并在 robots.txt 文件中添加以下代码行来告诉搜索引擎 Sitemap 的存放位置。

Sitemap:<sitemap文件所在的网址>

如:Sitemap:http://www.sangsan.cn/sitemaps.xml

如果有很多个.xml 或 .txt 文件,则需要\先建立一个索引文件,把这些.xml 或 .txt 文件的完整网址列在其中。

 

二、robots.txt文件

        robots.txt这个文件可以说是网站和搜索引擎之间的传话员,用来告诉搜索引擎您的网站哪些页面可以被收录,哪些页面不能被收录。robots.txt必须放置在一个站点的根目录下,而且文件名必须全部是小写。下面列出几个robots.txt的内容举例:

允许所有的搜索引擎蜘蛛robot访问:
User-agent: *
Allow:
禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的images/inc/目录):
User-agent: *
Disallow: /images/
Disallow: /inc/

        作为一名网站管理员,为了保证服务器的安全和性能,必须使搜索引擎的蜘蛛程序远离某些服务器上的目录。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
 

        通过robots.txt列出限制搜索引擎进行目录抓取,这样会将网站管理后台及一些重要的文件目录暴露出来。这将给网站攻击者以入口,为了保证网站的安全,桑三博客认为这种写法不是很可取,可以变更为:允许搜索引擎抓取指定的网站目录。如果有新的目录生成时,只需要修改robots.txt文件来完善即可。当然如果是普通用于展示的企业网站及个人网站,个人建议还是允许抓取所有目录为好!




上一篇: 360手机卫士提醒“窃听大盗”二代木马需谨慎
下一篇: 又一神奇:筷子兄弟《小苹果》MV 在线
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 教程 SEO
相关日志:
评论: 0 | 引用: 0 | 查看次数: -
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭