robots协议-蒲公英云

robots协议

      Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
     robots.txt文件是一个文本文件, 是一个协议而不是一个命令.  当爬虫访问一个站点时， 它会首先检查该站点根目录下是否存在robots.txt，如果存在，爬虫就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的爬虫将能够访问网站上所有没有被口令保护的页面。 
样例:
   User-agent: \*
   Disallow:  /
   Allow: /public/
以上表明爬虫只充许爬取public目录，将上面的内容保存为robots.txt文件，放在网站的根目录下，和网站的入口文件(  index.html,index.htm等)在一起即可. 
配置项详解:
    User-agent 指定爬虫名, \*代表任何爬虫。 如有多条User-agent记录，则可以限制多个爬虫，但至少需要指定一条. 
    Disallow:不允许爬取的目录。 
   Allow:一般配合Disallow使用，用于排除限制。

常见的爬虫名:

   BaiduSpider       Googlebot     360Spider     YodaoBot       ia\_archiver

试试查看一下baidu的robots.txt文件:

[https://www.baidu.com/robots.txt][https_www.baidu.com_robots.txt]

robots协议

发表评论取消回复

还没有评论，来说两句吧...

相关阅读

相关 robots协议文件的几种写法及示例

相关网站优化之robots.txt爬虫协议的写法

相关 robots.txt 禁止收录协议的写法

相关网络爬虫 Robots协议

相关 robots协议

相关 robots.txt禁止收录协议写法{完整版}

相关网络爬虫的Robots协议

相关 PJzhang:robots协议的实际场景

相关 python 爬虫之网站robots协议的重要性

相关爬虫君子协议-robots.txt协议

随便看看

搭建百万连接服务，使用netty完成websocke的推送

android l字体,关于 Android 默认字体以及对比微软雅黑字体

Android自定义9宫格友盟分享,Android自定义控件之九宫格

android scheme 配置多个,Android业务组件化之URL Scheme使用

android 自己封装sdk,Android Library打造自己的SDK，并Maven发布

android listview 滚动动画,Android使用ListView实现滚轮的动画效果实例

教程文章

热评文章

1江湖小白之一起学Python （二）爬取数据的保存

2Java Shiro：简化身份验证和授权的安全框架

3Java中try()catch{}的使用方法

4Swagger注解-@ApiModel 和 @ApiModelProperty

5windows下强制杀死tomcat进程

6uni-app 条形码(一维码)/二维码生成实现

标签列表