阿里云合作伙伴-凯铧互联授权证书长期稳定·永久朋友·产品专家1对1服务
阿里云购买咨询热线:158-0160-3153(微信同号)

热门文章

阿里云常见售后问题集锦

说明:本站的技术类文章,均为内部学习交流使用,并不能代表产品厂家,或者是第三方的观点,非专业技术类人员,请勿对服务器设备进行操作,以免造成设备不可使用或数据丢失。同时凯铧互联小编建议用户定期对云服务器数据进行备份保存!


北京凯铧互联科技有限公司(简称凯铧互联)由多名前阿里云资深技术专家创立,核心员工来自阿里云、腾讯云等,作为阿里云重要的合作伙伴,专注于为企业用户提供云计算及云计算的解决方案。阿里云优惠购买专线:158-0160-3153(微信同步)


robots.txt 文件的参数配置说明

问题场景:
robots.txt 文件的参数配置详细说明

凯铧互联小编回复

robots.txt 这个文件是网站利用Robots协议(也称为爬虫协议、机器人协议等),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。所以一个完整的robots.txt主要有三方面的内容,如下图,参数配置说明如下表。要注意robots.txt里的内容并不是固定的,要按网站的实际使用目的来决定。

robots文件

参数 说明
User-agent:*

搜索引擎的种类。其*代表所有的搜索引擎种类,是一个通配符。这种表示网站容许所有的搜索引擎收录

Disallow: /admin/ 禁止爬取 admin 目录下面的目录。
Disallow: /require/ 禁止爬取 require 目录下面的目录。
Disallow: /ABC/ 禁止爬取 ABC 目录下面的目录。
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以.htm为后缀的 URL(包含子目录)。
Disallow: /? 禁止访问网站中所有包含问号(?)的网址。
Disallow: /.jpg$ 禁止抓取网页所有.jpg格式的图片。
Disallow:/ab/adc.html 禁止爬取 ab 目录下面的adc.html文件。
Allow: /cgi-bin/ 允许爬取 cgi-bin 目录下面的目录。
Allow: /tmp 允许爬取 tmp 整个目录。
Allow: .htm$ 仅允许访问以.htm为后缀的 URL。
Allow: .gif$ 允许抓取网页和.gif格式图片。
Sitemap 网站地图,告诉爬虫这个页面是网站地图。sitemap.xml是google网站地图;sitemap.html是百度网站地图。需要单独制作


今天的分享就到这里啦,若您需要帮助可以直接扫描添加联系上方我们客服微信号,阿里云代理商凯铧互联专业技术团队为您提供全面/便捷/专业的7x24技术服务。

为什么选择我们:北京凯铧互联科技有限公司(简称凯铧互联)由多名前阿里云资深技术专家创立,核心员工来自阿里云、腾讯云等,作为阿里云,腾讯云,百度云,金山云重要的合作伙伴,专注于为企业用户提供云计算及云计算的解决方案。总部设在北京,并在内蒙设有办事处。做为一家综合性方案商,凯铧互联向各行业用户提供基于云计算的各种解决方案。为用户获得优质服务的同时,秉承"专业规划、周到服务"的服务理念,根据用户的实际情况,充分考虑各种网络资源的特点及功效,为用户量身定做一套适合于其实际应用需求的网络应用方案。帮助用户利用互联网的力量展开新的营销方式,并大大缩短了项目实施周期,获得用户的一致好评。

凯铧互联专属服务:阿里云代理商凯铧互联为每一个用户提供专属网络架构服务,提供7x24一对一技术服务,远程协助等。同时还能提供阿里云服务器ECS、阿里云CDN等产品等的专属折扣优惠购买,让用户能够便捷、更省的上云。如果您需要详细的为您的企业选择最适合自己的服务器配置类型,请您联系客服,专业人员为您提供服务,同时还能获得更多的优惠折扣,电话专线:136-5130-9831,QQ:3398234753。