SEO优化-robots.txt解读

robots.txt 文档由一条或好几条规则构成。每条规则可严禁（或容许）特殊抓取专用工具抓取相对应网站中的特定文件路径。

简单一点的观点便是：告知爬虫，我这个网站，你什么可以看，什么不能看的一个协议书。

百度搜索引擎（爬虫），浏览一个网站，最先要查询现阶段网站根目录下的robots.txt，随后根据里边的规则，开展网站网页页面的抓取。换句话说，robots.txt具有一个主旋律的功效，还可以说成爬虫抓取现阶段网站的一个行为规范。

那应用robots.txt的目地，就很确立了。

板栗如下所示：

分析：

名叫“Googlebot”抓取专用工具的客户代理不可抓取 http://wangxiaokai.vip/nogooglebot/ 文件夹名称或一切根目录。全部别的用户代理均可浏览全部网站。（不特定这条规则也可以，結果是一样的，由于彻底访问限制是系统软件默认设置的前提条件。）网站的站点地图文档坐落于 http:// ** .wangxiaokai.vip/site ** p.xml

务必坐落于它所运用到的网站服务器的根目录下

百度云网盘的資源，到博闻撰写時间才行，早已不能用常见的搜索技巧site:pan.baidu.com 搜索关键词的方法，在baidu.com|google.com|biying.com（海外版还能够凑合检索到）去搜索相应的資源。严禁的方法，非常大水平上是借助robots.txt，而不是请去饮茶。

下列是浏览 http://pan.baidu.com/robots.txt 获得的规则：

能够看见，百度云网盘封禁了全部資源文档通道。最猛的是最后一句：

我只想说有資源确实可以胡作非为

喜欢我文章内容的好朋友，扫描仪下面二维码，关注我的本人技术博客，我的技术性文章发表第一时间在blog上升级点一下连接wall的个人博客网站

上一篇：物流互联网... 下一篇：安踏“FILA...