关于网站sitemap和robots具体设置方法

robots.txt是一个纯文本文件，在robots.txt文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

补充说明一下，robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。这点请注意。

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问某站点下的所有文件。

具体语法分析：其中#后面文字为说明信息；User-agent:后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人；Disallow:后面为不允许访问的文件目录。

列举一些robots.txt的具体用法：

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 “/robots.txt” file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分（下例中的01、02、03目录）

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问（下例中的BadBot）

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问（下例中的Crawler）

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

robots meta的介绍：

Robots META标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots META标签也是放在页面的＜head＞＜/head＞中，专门用来告诉搜索引擎robots如何抓取该页的内容。

Robots META标签的写法：

Robots META标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面；

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去；

Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是INDEX,NOFOLLOW。

这样，一共有四种组合：

＜META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”＞
＜META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”＞
＜META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”＞
＜META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”＞

其中

＜META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”＞可以写成＜META NAME=”ROBOTS” CONTENT=”ALL”＞；

＜META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”＞可以写成＜META NAME=”ROBOTS” CONTENT=”NONE”＞

目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。例如：

＜META NAME=”googlebot” CONTENT=”index,follow,noarchive”＞

表示抓取该站点中页面并沿着页面中链接抓取，但是不在google上保留该页面的网页快照。

下面附加一些meta用法

meta是用来在HTML文档中模拟HTTP协议的响应头报文。meta 标签用于网页的<head>与</head>中，meta 标签的用处很多。meta 的属性有两种：name和http-equiv。name属性主要用于描述网页，对应于content（网页内容），以便于搜索引擎机器人查找、分类（目前几乎所有的搜索引擎都使用网上机器人自动查找meta值来给网页分类）。这其中最重要的是description（站点在搜索引擎上的描述）和keywords（分类关键词），所以应该给每页加一个meta值。比较常用的有以下几个:

name 属性

　　 1、<meta name="generator" contect="">用以说明生成工具（如Microsoft FrontPage 4.0）等；

　　 2、<meta name="keywords" contect="">向搜索引擎说明你的网页的关键词；

　　 3、<meta name="description" contect="">告诉搜索引擎你的站点的主要内容；

　　 4、<meta name="author" contect="你的姓名">告诉搜索引擎你的站点的制作的作者；

　　其中的属性说明如下：

　　设定为all：文件将被检索，且页面上的链接可以被查询；

　　设定为none：文件将不被检索，且页面上的链接不可以被查询；

　　设定为index：文件将被检索；

　　设定为follow：页面上的链接可以被查询；

　　设定为noindex：文件将不被检索，但页面上的链接可以被查询；

　　设定为nofollow：文件将不被检索，页面上的链接可以被查询。

http-equiv属性

　　 1、<meta http-equiv="Content-Type" contect="text/html";charset=gb_2312-80">

　　和 <meta http-equiv="Content-Language" contect="zh-CN">用以说明主页制作所使用的文字以及语言；

　　又如英文是ISO-8859-1字符集，还有BIG5、utf-8、shift-Jis、Euc、Koi8-2等字符集；

　　 2、<meta http-equiv="Refresh" contect="n;url=http://yourlink">定时让网页在指定的时间n内，跳转到页面http;//yourlink；

　　 3、<meta http-equiv="Expires" contect="Tue,25 Sep 2007 00:18:00 GMT">可以用于设定网页的到期时间，一旦过期则必须到服务器上重新调用。需要注意的是必须使用GMT时间格式；

　　 4、<meta http-equiv="Pragma" contect="no-cache">是用于设定禁止浏览器从本地机的缓存中调阅页面内容，设定后一旦离开网页就无法从Cache中再调出；

　　 5、<meta http-equiv="set-cookie" contect="Tue,25 Sep 2007 00:18:00 GMT">cookie设定，如果网页过期，存盘的cookie将被删除。需要注意的也是必须使用GMT时间格式；

　　 6、<meta http-equiv="Pics-label" contect="">网页等级评定，在IE的internet选项中有一项内容设置，可以防止浏览一些受限制的网站，而网站的限制级别就是通过meta属性来设置的；

　　 7、<meta http-equiv="windows-Target" contect="_top">强制页面在当前窗口中以独立页面显示，可以防止自己的网页被别人当作一个frame页调用；

　　 8、<meta http-equiv="Page-Enter" contect="revealTrans(duration=10,transtion=50)">和<meta http-equiv="Page-Exit" contect="revealTrans(duration=20，transtion=6)">设定进入和离开页面时的特殊效果，这个功能即FrontPage中的“格式/网页过渡”，不过所加的页面不能够是一个frame页面。

关于sitemap的制作

我自己最近也因为负责的网站在进行重构，所以也会要对网站重构进行优化，因此sitemap的调整也是必然的。现在制作sitemap无外乎就是几种方式，一个是采用sitemap生成器来实现，还有一个就是在线生成。在这里我也就提供下我自己使用的在线生成地址吧。

http://www.xml-sitemaps.com/details-www.seo9go.com.html

分享到：更多