本文作者: jsweibo
本文链接: https://jsweibo.github.io/2020/08/13/%E4%BB%80%E4%B9%88%E6%98%AFrobots-txt/
摘要
本文主要讲述了:
- 作用
- 局限性
正文
作用
置于域名根目录下的一个纯文本文件,用于允许或禁止机器人(比如:爬虫)访问指定文件或目录
示例:禁止任何机器人访问任何文件或目录(除/robots.txt
之外)
1 | User-agent: * |
示例:禁止任何机器人访问/foo/
和/bar/index.html
1 | User-agent: * |
示例:禁止除Googlebot
外的任何机器人,访问任何文件或目录(除/robots.txt
之外)
1 | User-agent: Googlebot |
示例:禁止Googlebot
访问/foo/
和/bar/index.html
1 | User-agent: Googlebot |
局限性
仅是一个君子协定
参考资料
本文作者: jsweibo
本文链接: https://jsweibo.github.io/2020/08/13/%E4%BB%80%E4%B9%88%E6%98%AFrobots-txt/
本文对你有帮助?请支持我
- 本文链接: https://jsweibo.github.io/2020/08/13/%E4%BB%80%E4%B9%88%E6%98%AFrobots-txt/
- 版权声明: 除非另有说明,否则本网站上的内容根据署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 进行许可。