robots协议

柔光的暖阳◎ 2022-05-13 14:18 369阅读 0赞
  1. Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
  2. robots.txt文件是一个文本文件, 是一个协议而不是一个命令. 当爬虫访问一个站点时, 它会首先检查该站点根目录下是否存在robots.txt,如果存在,爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的爬虫将能够访问网站上所有没有被口令保护的页面。
  3. 样例:
  4. User-agent: \*
  5. Disallow: /
  6. Allow: /public/
  7. 以上表明爬虫只充许爬取public目录,将上面的内容保存为robots.txt文件,放在网站的根目录下,和网站的入口文件( index.html,index.htm等)在一起即可.
  8. 配置项详解:
  9. User-agent 指定爬虫名, \*代表任何爬虫。 如有多条User-agent记录,则可以限制多个爬虫,但至少需要指定一条.
  10. Disallow:不允许爬取的目录。
  11. Allow:一般配合Disallow使用,用于排除限制。

常见的爬虫名:

  1. BaiduSpider Googlebot 360Spider YodaoBot ia\_archiver

试试查看一下baidu的robots.txt文件:

  1. [https://www.baidu.com/robots.txt][https_www.baidu.com_robots.txt]

发表评论

表情:
评论列表 (有 0 条评论,369人围观)

还没有评论,来说两句吧...

相关阅读

    相关 robots协议

              Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议