wordpress企业主题网站seo优化之robots.txt爬虫协议的写法

爬虫协议Robots.txt是在网站上找到的第一个文件搜索蜘蛛。它告诉搜索引擎可以抓取哪些页面以及哪些页面无法抓取。

当我们在我们的网站上有错误页面时,或者某些页面不希望蜘蛛抓取时,合理配置的机器人协议可以使蜘蛛更有效,更快速地抓取需要抓取的内容。当搜索引擎蜘蛛进入网站时,首先要确定网站根目录目录下是否有robots.txt文件。如果存在,则根据文件的规范对内容进行爬网;如果该文件不存在,则根据默认规则对网站中的所有页面进行爬网。 。因此,本文介绍了一些机器人的语法和常见示例。

网站设置robots.txt的好处:禁止搜索引擎包含页面的一部分;引导蜘蛛爬行站点地图;可以在一定程度上保护网站安全;节省流量等。

Robots基本语法:

1、定义搜索引擎:User-agent。

User-agent: *  #所有的搜索引擎
User-agent: Baiduspider #百度蜘蛛
User-agent: Googlebot #谷歌蜘蛛

2、Disallow 禁止爬取。

Disallow: /admin/ #禁止爬取admin文件夹
Disallow: /login.html #禁止爬取登录页面

3、Allow 允许。默认情况下,都是允许的。

例如:禁止admin文件夹下的所有文件,除了.html的网页。如果用Disallow一个一个的禁止,太浪费时间了。

此时用Allow就解决这个问题:

Allow: /admin/.html$ 
Disallow: /admin/

4、$ 结束符。

例:允许所有的以.html结尾的文件。不管前面有多长的URL,只要以.html结尾都允许

Allow: .html$

5、* 通配符符号0或多个任意字符。

例:屏蔽所有的动态URL

User-agent: *
Disallow: /*?*

6、Sitemap 声明网站地图。

Sitemap: http://www.xiaowangyun.com/sitemap.xml

7、#: 注释符。

8、版本号

Robot-version: Version 1.0

注:

1.robots.txt文件存放在网站根目录下。
2.文件名所有字母都必须小写(robots.txt)。
3.User-agentDisallowAllowSitemap必须是第一个字母大写,后面的字母小写,后面英文字符下的空格。

常用Robots.txt 文件举例

例1、禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

例2、禁止访问某些目录。注意的是对每一个目录必须分开声明。

User-agent: *
Disallow: /admin/
Disallow: /log/
Disallow: /bin/

例3、禁止某个搜索引擎抓取网站上的所有图片

User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

实在不会的,可以查看 https://www.zhidianju.com/robots.txt

给TA打赏
共{{data.count}}人
人已打赏
WP实用教程

WordPress企业主题下实现自动记录404死链并提交百度站长平台

2019-2-16 11:58:43

WP实用教程

WordPress后台写文章/新建页面出现 HTTP ERROR 500 错误的解决方法-指点聚

2019-2-24 11:33:41


版权免责声明

本资源仅用于个人学习测试使用,禁止用于任何商业环境,请于下载后24小时内 删除本资源!

本文所有相关技术/资源内容统一放在下载包里

  1. 1、本网站名称:指点聚源码
  2. 2、本站永久网址:https://www.zhidianju.com
  3. 3、站内所有资源均可通过日常签到等任务进行免费兑换,记得每日来本站签到哦~!(由于模板不是很完善签到 需刷新一下!)。
  4. 4、如果您觉得本站有帮助到您,也想给本站一些帮助。您可以再下方打赏本站。
  5. 5、如果你也有好源码或者教程,可以到审核区发布,分享有金币奖励和额外收入!
  6. 6、本站资源来源于互联网收集/个人购买,如有侵犯到您的权益,请查看【版权声明】
  7. 7、本站提供的所有资源均来自互联网搜索,站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁 止用于任何商业环境,任何人不得擅作它用,否则后果自负!请在下载24小时内删除!为尊重作者版权,请购买原版作品,支 持你喜欢的作者,谢谢!
  8. 8、本站资源大多存储在云盘,如发现链接失效 【链接失效】 我们会第一时间更新。本站提供的源码、模板、软件工具等其他资源, 都不包含技术服务 请大家谅解!
  9. 9、如遇到加密压缩包,默认解压密码为"www.zhidianju.com",如遇到无法解压的请联系管理员!
  10. 10、本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索