本文目录:
- 1、robots.txt可以删除吗
- 2、robots.txt协议,怎么设置
- 3、怎样查看网站robots.txt内容
- 4、登录网站出现由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面,怎么办
robots.txt可以删除吗
如果你想让搜索引擎收录站点的全部内容,robots.txt 文件是完全可以删除的。推荐用站点程序自带默认的内容就行(可以有效避免收录重复、后台敏感等内容)。
PS:你可以不用删除,只保留网站地图这行设置内容就行了,有利于站点SEO。
User-agent: *
Sitemap: /sitemap.html
robots.txt协议,怎么设置
robots.txt文件的格式
User-agent: 定义搜索引擎的类型
Disallow: 定义禁止搜索引擎收录的地址
Allow: 定义允许搜索引擎收录的地址
我们常用的搜索引擎类型有:
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛: slurp
robots.txt文件的写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC 这里定义是禁止爬寻ABC整个目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
robots.txt文件用法举例
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
实例分析:淘宝网的 Robots.txt文件
User-agent: Baiduspider
Disallow: /
很显然淘宝不允许百度的机器人访问其网站下其所有的目录。
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Disallow:
例3. 禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /
例4. 允许某个搜索引擎的访问
User-agent: baiduspider
Disallow: User-agent: *Disallow: /
怎样查看网站robots.txt内容
robots文件一般放在网站根目录,所以想查看它很简单,
只需要在你的网站URL后面输入:robots.txt
以百度的robots为例:
如果觉得有用记得点个赞!
登录网站出现由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面,怎么办
原因:
因为网站的robots.txt文件屏蔽了百度,所以百度无法抓取该网站
方法:
1、修改robots文件,取消该页面的屏蔽,robots的标准写法百度百科里有详细介绍:网页链接
2、在百度站长平台(已更名为百度资源平台)更新网站robots,过一段时间,您的这个网站就会被正常抓取收录了。
影响:
Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过一种爬虫spider程序,自动搜集互联网上的网页并获取相关信息。
而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。搜索引擎则会按照Robots协议给予的权限进行抓取。
Robots协议代表了一种契约精神,互联网企业只有遵守这一规则,才能保证网站及用户的隐私数据不被侵犯。违背Robots协议将带来巨大安全隐忧
此前,曾经发生过这样一个真实的案例:国内某公司员工郭某给别人发了封求职的电子邮件,该Email存储在某邮件服务公司的服务器上。因为该网站没有设置robots协议,导致该Email被搜索引擎抓取并被网民搜索到,为郭某的工作生活带来极大困扰。
如今,在中国国内互联网行业,正规的大型企业也都将Robots协议当做一项行业标准,国内使用Robots协议最典型的案例,就是淘宝网拒绝百度搜索、京东拒绝一淘搜索。不过,绝大多数中小网站都需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议。
北京市汉卓律师事务所首席律师赵虎表示,Robots协议是维护互联网世界隐私安全的重要规则。如果这种规则被破坏,对整个行业就是灭顶之灾。
以上内容参考 百度百科-robots协议
本文来源:https://www.yuntue.com/post/82561.html | 云服务器网,转载请注明出处!

微信扫一扫打赏
支付宝扫一扫打赏