robots.txt的简单介绍

本文目录：

1、robots.txt可以删除吗
2、robots.txt协议，怎么设置
3、怎样查看网站robots.txt内容
4、登录网站出现由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面,怎么办

robots.txt可以删除吗

如果你想让搜索引擎收录站点的全部内容，robots.txt 文件是完全可以删除的。推荐用站点程序自带默认的内容就行（可以有效避免收录重复、后台敏感等内容）。

PS：你可以不用删除，只保留网站地图这行设置内容就行了，有利于站点SEO。

User-agent: *

Sitemap: /sitemap.html

robots.txt协议，怎么设置

robots.txt文件的格式

User-agent: 定义搜索引擎的类型

Disallow: 定义禁止搜索引擎收录的地址

Allow: 定义允许搜索引擎收录的地址

我们常用的搜索引擎类型有：

google蜘蛛：googlebot

百度蜘蛛：baiduspider

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

altavista蜘蛛：scooter

lycos蜘蛛：lycos_spider_(t-rex)

alltheweb蜘蛛：fast-webcrawler

inktomi蜘蛛： slurp

robots.txt文件的写法

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 　这里定义是禁止爬寻require目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC 这里定义是禁止爬寻ABC整个目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有的动态页面

Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

Allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

robots.txt文件用法举例

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

实例分析：淘宝网的 Robots.txt文件

User-agent: Baiduspider

Disallow: /

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)

User-agent: *

Disallow:

例3. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: baiduspider

Disallow: User-agent: *Disallow: /

怎样查看网站robots.txt内容

robots文件一般放在网站根目录，所以想查看它很简单，

只需要在你的网站URL后面输入：robots.txt

以百度的robots为例：

如果觉得有用记得点个赞！

登录网站出现由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面,怎么办

原因：

因为网站的robots.txt文件屏蔽了百度，所以百度无法抓取该网站

方法：

1、修改robots文件，取消该页面的屏蔽，robots的标准写法百度百科里有详细介绍：网页链接

2、在百度站长平台（已更名为百度资源平台）更新网站robots，过一段时间，您的这个网站就会被正常抓取收录了。

影响:

Robots协议是网站出于安全和隐私考虑，防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过一种爬虫spider程序，自动搜集互联网上的网页并获取相关信息。

而鉴于网络安全与隐私的考虑，每个网站都会设置自己的Robots协议，来明示搜索引擎，哪些内容是愿意和允许被搜索引擎收录的，哪些则不允许。搜索引擎则会按照Robots协议给予的权限进行抓取。

Robots协议代表了一种契约精神，互联网企业只有遵守这一规则，才能保证网站及用户的隐私数据不被侵犯。违背Robots协议将带来巨大安全隐忧

此前，曾经发生过这样一个真实的案例：国内某公司员工郭某给别人发了封求职的电子邮件，该Email存储在某邮件服务公司的服务器上。因为该网站没有设置robots协议，导致该Email被搜索引擎抓取并被网民搜索到，为郭某的工作生活带来极大困扰。

如今，在中国国内互联网行业，正规的大型企业也都将Robots协议当做一项行业标准，国内使用Robots协议最典型的案例，就是淘宝网拒绝百度搜索、京东拒绝一淘搜索。不过，绝大多数中小网站都需要依靠搜索引擎来增加流量，因此通常并不排斥搜索引擎，也很少使用Robots协议。

北京市汉卓律师事务所首席律师赵虎表示，Robots协议是维护互联网世界隐私安全的重要规则。如果这种规则被破坏，对整个行业就是灭顶之灾。

以上内容参考百度百科-robots协议

本文来源：https://www.yuntue.com/post/82561.html | 云服务器网，转载请注明出处！

本文目录：

robots.txt可以删除吗

robots.txt协议，怎么设置

怎样查看网站robots.txt内容

登录网站出现由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面,怎么办

关于作者: yuntue

发表回复取消回复

本文目录：

robots.txt可以删除吗

robots.txt协议，怎么设置

怎样查看网站robots.txt内容

登录网站出现由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面,怎么办

给这篇文章的作者打赏

关于作者: yuntue

为您推荐

印尼原生IP：保护本土文化传承的重要措施

阿里云服务器如何打开端口？

腾讯云MySQL价格优惠快讯

华为云建站，让你的网站开张大吉

WordPress中文博客主题推荐

高性能韩国原生VPS，助力您的互联网之路！

发表回复 取消回复

发表回复取消回复