云服务器网:购买云服务器和VPS必上的网站!

robots.txt的简单介绍

本文目录:1、robots.txt可以删除吗2、robots.txt协议,怎么设置3、怎样查看网站robots.txt内容4、登录网站出现由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面,怎么办robots.txt可以删除吗如果你想让搜索引擎收录站点的全部内容

本文目录:

  • 1、robots.txt可以删除吗
  • 2、robots.txt协议,怎么设置
  • 3、怎样查看网站robots.txt内容
  • 4、登录网站出现由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面,怎么办

robots.txt可以删除吗

如果你想让搜索引擎收录站点的全部内容,robots.txt 文件是完全可以删除的。推荐用站点程序自带默认的内容就行(可以有效避免收录重复、后台敏感等内容)。

PS:你可以不用删除,只保留网站地图这行设置内容就行了,有利于站点SEO。

User-agent: *

Sitemap: /sitemap.html

robots.txt协议,怎么设置

robots.txt文件的格式

User-agent: 定义搜索引擎的类型

Disallow: 定义禁止搜索引擎收录的地址

Allow: 定义允许搜索引擎收录的地址

我们常用的搜索引擎类型有:

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

inktomi蜘蛛: slurp

robots.txt文件的写法

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/   这里定义是禁止爬寻require目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC 这里定义是禁止爬寻ABC整个目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有的动态页面

Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

robots.txt文件用法举例

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

实例分析:淘宝网的 Robots.txt文件

User-agent: Baiduspider

Disallow: /

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)

User-agent: *

Disallow:

例3. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: baiduspider

Disallow: User-agent: *Disallow: /

怎样查看网站robots.txt内容

robots文件一般放在网站根目录,所以想查看它很简单,

只需要在你的网站URL后面输入:robots.txt

以百度的robots为例:

如果觉得有用记得点个赞!

登录网站出现由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面,怎么办

原因:

因为网站的robots.txt文件屏蔽了百度,所以百度无法抓取该网站

方法:

1、修改robots文件,取消该页面的屏蔽,robots的标准写法百度百科里有详细介绍:网页链接

2、在百度站长平台(已更名为百度资源平台)更新网站robots,过一段时间,您的这个网站就会被正常抓取收录了。

影响:

Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过一种爬虫spider程序,自动搜集互联网上的网页并获取相关信息。

而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。搜索引擎则会按照Robots协议给予的权限进行抓取。

Robots协议代表了一种契约精神,互联网企业只有遵守这一规则,才能保证网站及用户的隐私数据不被侵犯。违背Robots协议将带来巨大安全隐忧

此前,曾经发生过这样一个真实的案例:国内某公司员工郭某给别人发了封求职的电子邮件,该Email存储在某邮件服务公司的服务器上。因为该网站没有设置robots协议,导致该Email被搜索引擎抓取并被网民搜索到,为郭某的工作生活带来极大困扰。

如今,在中国国内互联网行业,正规的大型企业也都将Robots协议当做一项行业标准,国内使用Robots协议最典型的案例,就是淘宝网拒绝百度搜索、京东拒绝一淘搜索。不过,绝大多数中小网站都需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议。

北京市汉卓律师事务所首席律师赵虎表示,Robots协议是维护互联网世界隐私安全的重要规则。如果这种规则被破坏,对整个行业就是灭顶之灾。

以上内容参考 百度百科-robots协议

本文来源:https://www.yuntue.com/post/82561.html | 云服务器网,转载请注明出处!

关于作者: yuntue

云服务器(www.yuntue.com)是一家专门做阿里云服务器代金券、腾讯云服务器优惠券的网站,这里你可以找到阿里云服务器腾讯云服务器等国内主流云服务器优惠价格,以及海外云服务器、vps主机等优惠信息,我们会为你提供性价比最高的云服务器和域名、数据库、CDN、免费邮箱等企业常用互联网资源。

为您推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注