如何写robots.txt文件?

安泽SEO 54 0

像很多人开始做网站推广、SEO时,可能都还在学习SEO。而在学习实践SEO的过程中,robots.txt的撰写是不可避免的,但是众多新手并不知道如何写robots.txt,甚至连什么是robots.txt都不知道,我在刚开始的时候也很少写,认为自己写不来所以一直不敢写,毕竟robots.txt文件是搜索引擎中访问网站的时候要查看的第一个文件,对收录和排名还是有很大的帮助的,写好了有利于搜索引擎爬行网站。

一、什么是robots.txt呢?

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,放在网站根目录。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的,也是用于指定搜索引擎spider在您网站上的抓取范围的一个txt纯文字档,在档中声明该网站中不想被搜寻引擎收录的部分或者指定搜寻引擎只收录特定的部分。

搜寻引擎使用spider程式自动访问网路上的网页并获取网页资讯,spider在访问一个网站时,根据蜘蛛的工作原理,会首先检查该网站的根域下是否有一个叫做robots.txt的纯文字文件。 而这个档就是robots.txt文件。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

二、如何写robots.Txt 文件?

首先清楚它的格式:

User-agent: *

Disallow:/

user-agent是用来指定对象。 *代表针对全部的蜘蛛有效,但如果要针对某个蜘蛛,就要必需指明蜘蛛名称,例如:Baiduspider,Googlebot或者其他搜寻引擎蜘蛛。

Disallow翻译过来是不允许,可以写成allow(代表允许)。 后面的“/”表示所有档,如果是某个资料夹,则要表示为“/资料夹1/”,如:

User-agent: Googlebot

Disallow: /

则意思为,针对Google蜘蛛,不允许所有档。 再如:

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

这个意思则为针对搜索物件,不允许蜘蛛访问cgi-bin,tmp,~joe三个资料夹,但是值得注意的是不能写成”Disallow: /cgi-bin/ /tmp/”。

 另外下面还有几个其它的例子:

一、禁止所有搜寻引擎访问网站的任何部分:

 User-agent: *

 Disallow: /

二、允许所有的robot访问

User-agent: *

Disallow:

或者User-agent: *

 Allow: /

 注意,最直接的可以建一个空档“/robots.txt”

 三、仅允许Googlebot访问您的网站

 User-agent: Googlebot

 allow: /

 或者:User-agent: Baiduspider

 Disallow:

 disallow:后面不写任何东西,则表示为空,意思为针对针百度蜘蛛,不允许dang为空,则整体意思是仅允许Baiduspider访问该网站。

 四、允许访问特定目录中的部分url

 User-agent: *

 Allow: /cgi-bin/see

 Allow: /tmp/hi

 Allow: /~joe/look

 Disallow: /cgi-bin/

 Disallow: /tmp/

 Disallow: /~joe/

 五、使用”*”限制访问url

 User-agent: *

 Disallow: /cgi-bin/*.htm

意为禁止访问/cgi-bin/目录下的所有以”.htm”为尾码的URL(包含子目录)。

六、使用”$”限制访问url

User-agent: *

Allow: .htm$

Disallow: /

意为仅允许访问以”.htm”为尾码的URL

七、禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

八、禁止Baiduspider抓取网站上所有图 片

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

意为仅允许抓取网页,禁止抓取任何图片

九、仅允许Baiduspider抓取网页和.gif格式图片

User-agent: Baiduspider

Allow: .gif$

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .png$

Disallow: .bmp$

意为允许抓取网页和gif格式图片,不允许抓取其他格式图片

十、仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider

Disallow: .jpg$

 新手在学习SEO的时候没有必要写这么详细的robots.txt档,把主要的写出来就可以了,如果写的不好还会得到不好的效果,上述的例子比较齐全,新手要认真的看,把思路理清,整合一个适合自己网站的档,熟悉之后就能使用到多个网站了。

标签: robots

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~

 
QQ在线咨询
售前咨询电话
17606410962
技术支持电话
17606410962