什么是robots.txt


本文作者: jsweibo

本文链接: https://jsweibo.github.io/2020/08/13/%E4%BB%80%E4%B9%88%E6%98%AFrobots-txt/

摘要

本文主要讲述了:

  1. 作用
  2. 局限性

正文

作用

置于域名根目录下的一个纯文本文件,用于允许或禁止机器人(比如:爬虫)访问指定文件或目录

示例:禁止任何机器人访问任何文件或目录(除/robots.txt之外)

1
2
User-agent: *
Disallow: /

示例:禁止任何机器人访问/foo//bar/index.html

1
2
3
User-agent: *
Disallow: /foo/
Disallow: /bar/index.html

示例:禁止除Googlebot外的任何机器人,访问任何文件或目录(除/robots.txt之外)

1
2
3
4
5
User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

示例:禁止Googlebot访问/foo//bar/index.html

1
2
3
User-agent: Googlebot
Disallow: /foo/
Disallow: /bar/index.html

局限性

仅是一个君子协定

参考资料

本文作者: jsweibo

本文链接: https://jsweibo.github.io/2020/08/13/%E4%BB%80%E4%B9%88%E6%98%AFrobots-txt/


本文对你有帮助?请支持我


支付宝
微信