谷歌开源robots.txt 欲引领搜索引擎爬虫的行业标准

时间：2019-07-02 18:13:50 来源：作者：

外媒 VentureBeat 报道称，谷歌希望将发展数十年的 robots.txt 解析器开源，以推动 REP 成为搜索引擎爬虫的行业标准。机器人排除协议（REP）是荷兰软件工程师 Martijn Koster 于 1994 年提出的一个标准，几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准。

（截图 via VentureBeat）

比如谷歌爬虫（googlebot）就会在索引某个网站时扫描 robots.txt 文件，以确定其应该忽略掉哪些部分。如果根目录中未包含该文件，那搜索引擎就会默认索引（index）全站内容。

值得一提的是，，该文件不仅可以用于提供直接的爬虫索引，还可以被用来填充一些关键字，以实现“搜索引擎优化”（seo）。此外，并非所有抓取工具都会严格遵从 robots.txt 文件。

比如几年前，互联网档案光就选择了为其“时光机”（Wayback machine）归档工具提供支持，另外一些恶意抓取工具也会有意忽略 REP 。

不过需要指出的是，即便 REP 已经成为了默认的实施标准，但它实际上从未成为真正的互联网标准，正如互联网工程任务组（IETF - 一家非营利性开放标注组织）所定义的那样。

为了推动这项转变，谷歌正在积极参与行动。这家搜索巨头表示，当前的 REP 可以被“解释”，但并不总是涵盖边缘化的案例。

作为补充，谷歌提出了更全面的“未定义场景”。比如在执行一次“扫描已知内容”的任务时，爬虫该如何处理“服务器出现不可访问故障”的 robots.txt 文件、或者有拼写错误的规则？

谷歌在一篇博客文章中写到：“对于网站所有者来说，这是一项极具挑战性的问题。因为模糊的事实标准，让他们很难恰当地编写规则”。

我们希望帮助网站所有者和开发者在互联网上创造出令人惊叹的体验，而无需担心如何对抓取工具加以限制。

于是谷歌与 REP 原作者 Martijn Koster、网站管理员、以及其它搜索引擎合作，向 IETF 提交了一份关于《如何在现代网络上适用 REP》的提案。

该公司尚未公布该草案的全貌，但却是提供了一些指引。比如任何基于 URI 的传输协议，都可以适用 robots.txt 。且其不再局限于 HTTP，亦可面向 FTP 或 CoAP 。

据悉，开发者必须至少解析 robots.txt 的前 500 KB 内容。定义文件的大小，可确保每个连接的打开时间不会太长，从而减轻不必要的服务器压力。

另外，新的最大缓存时间被设置为 24 小时（或可用的缓存指令值），使得网站所有者能够随时灵活地更新他们的 robots.txt，且爬虫不会因此而让网站超载。

例如，在 HTTP 的情况下，可使用 Cache-Control 报头来确定缓存时间。而当先前可访问的 robots.txt 文件由于服务器故障而变得不可用时，则会在相当长的时间段内不再检索该网站。

这里需要点明的是，抓取工具可以用不同的方式去解析 robots.txt 文件中的说明，这可能会导致网站所有者的混淆。

为此，谷歌特地推出了 C++ 库，其支持 Googlebot 在 GitHub 上给出的解析和匹配系统，以供任何人访问。

根据 GitHub 上的发布说明，Google 希望开发者构建自己的解析器，以更好地反映 Google 的 robots.txt 文件的解析和匹配。

Tags：谷歌点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

谷歌发布警告：NSO黑客的水平与国家级的精英间谍不相上下

我们所见过的技术上最复杂的漏洞利用之一”- 谷歌“零号项目”安全研究人员评价ForcedEntry无交互攻击。多年来，以色列间谍软件开发商NSO集团针对安卓和iOS设备开发出了多款...【详细内容】

2021-12-24　　Tags: 谷歌点击:(8)　　评论:(0)　　加入收藏

数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了

博雯发自凹非寺量子位报道 | 公众号 QbitAI在炼丹过程中，为了减少训练所需资源，MLer有时会将大型复杂的大模型“蒸馏”为较小的模型，同时还要保证与压缩前相当的结果。这就...【详细内容】

2021-12-24　　Tags: 谷歌点击:(11)　　评论:(0)　　加入收藏

专门针对chrome谷歌浏览器而开发的一款访问插件

谷歌访问助手插件是专门针对chrome谷歌浏览器而开发的一款访问插件，可以为谷歌搜索，谷歌chrome商店，gmail邮箱提供加速服务，解决打不开的问题。这款插件可以帮助我们在使用谷歌...【详细内容】

2021-12-03　　Tags: 谷歌点击:(13)　　评论:(0)　　加入收藏

B2B和B2C谷歌SEO网站优化和运营异同对比

最近发现B2B的海外推广貌似是一个挺大的缺口，很多厂长或老板不了解独立站的流量构成和玩法，无论是自然流量还是付费流量。也衍生了很多培训（咦，这是不是我副业的好机会？）所以这次...【详细内容】

2021-11-11　　Tags: 谷歌点击:(32)　　评论:(0)　　加入收藏

谷歌Android 12L的适配机型，看得我们有点懵

如果你是一名忠实的Android玩家，那么可能会知道，今年的Android 12系统在版本规划上与“往届”相比可以说是很有些特殊。具体来说，除了前段时间刚刚推出正式版的Android 12外，谷...【详细内容】

2021-11-10　　Tags: 谷歌点击:(24)　　评论:(0)　　加入收藏

谷歌宣布推出分布式云

本月 12 日，谷歌召开了 Google Cloud Next '21 年度大会。在这场大会上，谷歌宣布推出Google Distributed Cloud（谷歌分布式云计算），这是一套软硬件结合的解决方案，用于将谷歌...【详细内容】

2021-10-29　　Tags: 谷歌点击:(29)　　评论:(0)　　加入收藏

谷歌发布最新零样本学习看图说话模型，多类型任务直接上手

谷歌新推出了弱监督看图说话模型SimVLM，能够轻松实现零样本学习（zero-shot）任务迁移。...【详细内容】

2021-10-27　　Tags: 谷歌点击:(44)　　评论:(0)　　加入收藏

gmail谷歌邮箱账号注册教程，轻松解决手机号码无法用于验证问题

由于一些特殊原因，使用国内手机号码注册谷歌邮箱会有各种限制，最常见的一种就是此电话号码无法用于进行验证，这就让人很无语了，很多朋友都卡在了这里。本期就针对国内手机号码注...【详细内容】

2021-10-27　　Tags: 谷歌点击:(39)　　评论:(0)　　加入收藏

谷歌浏览器分身单窗口单ip ，google浏览器多开

很多人在使用谷歌浏览器时都有多开的需求，但是google浏览器是不支持多开的，只能切换账户。更不要提每个多开的窗口都配置不同的ip了。如果想要实现谷歌浏览器分身单窗口单IP，其...【详细内容】

2021-10-22　　Tags: 谷歌点击:(187)　　评论:(0)　　加入收藏

谷歌安卓Android 12系统正式推送：带来六大新功能

今天凌晨，谷歌正式发布了全新一代安卓Android 12系统，拥有全新的UI，同时带来了六大新功能，除此以外还有10月的安全补丁，下面就给大家介绍这六大新功能以及安卓Android 12系统配置...【详细内容】

2021-10-22　　Tags: 谷歌点击:(54)　　评论:(0)　　加入收藏

▌简易百科推荐

搜索的基本原理以及搜索引擎和关键词的关系

今天不讲信息流，讲点其他的，比如搜索搜索是什么东西？见过开店卖东西吧，原理大同小异。比如我在步行街租个店铺，开个鞋店，每天在店里等着来步行街的人进我店里买我的鞋。百度搜索就...【详细内容】

2021-12-24　　运营王明皓　　　　Tags:搜索　点击:(9)　　评论:(0)　　加入收藏

GoogleAds广告账户免费诊断分析工具，2021最新免费Google Ads诊断

在过去的时间中，我写了比较多的关于谷歌SEO推广，今天来写写GoogleAds广告账户免费诊断分析。今天我们的主题是：如何借助GoogleAds广告账户免费诊断分析工具，来诊断并优化你的Goo...【详细内容】

2021-10-26　　优易化海外营销推广　　　　Tags:GoogleAds 　点击:(43)　　评论:(0)　　加入收藏

什么是霸屏引流？百度霸屏好不好？百度霸屏怎么做？

霸屏通俗来讲就是霸占屏幕，百度霸屏就是在百度搜索的结果中，除了竞价内容，剩下的都是我们品牌词或网站的内容。以用户的搜索习惯来说，一般翻两三页就不会再继续翻下去了。所以我...【详细内容】

2021-10-22　　聪少爱学堂　　　　Tags:霸屏引流　点击:(50)　　评论:(0)　　加入收藏

搜索引擎蜘蛛是如何判断文章质量的？

网络推广计划表示在网站优化时，内容优化也是重中之重，其中有关文章的优化也让站长们苦恼不已，因为不太清楚蜘蛛对网站文章的质量评判是如何的，很难做到更精准的蜘蛛“取向”，那么...【详细内容】

2021-10-22　　云霸屏　　　　Tags:搜索引擎　点击:(45)　　评论:(0)　　加入收藏

为什么百度站长平台关键词查询排名与实际搜索结果不符？

我们在做SEO优化的过程中，通常都会用到百度站长平台、5118、站长工具等seo工具，用来分析查询关键词排名。特别是百度站长平台中的分析数据很多，其中百度站长工具中的流量与关键...【详细内容】

2021-10-22　　双丝网络　　　　Tags:百度站长平台　点击:(36)　　评论:(0)　　加入收藏

网站要如何优化才能让蜘蛛更喜欢？

网络推广费用了解到，网站关键词排名效果想要更好，就要扎实的做好优化工作。关键词排名高的网站能更优秀的出现在搜索引擎首页，获得更多的用户浏览，得到更高的权重，从而给企业带来...【详细内容】

2021-09-25　　云霸屏　　搜狐号　　Tags:蜘蛛　点击:(39)　　评论:(0)　　加入收藏

百度搜索信风算法，终结了使用翻页键诱导用户行为的做法

百度搜索贸易风算法，消除了使用翻页键诱导用户行为，简单地告诉我们，只要你的翻页按钮存在异常跳转行为，无论跳转到哪个页面，都属于该算法的覆盖范围。百度的搜索交易风算法主要攻...【详细内容】

2021-08-31　　羽西223　　　　Tags:信风算法　点击:(66)　　评论:(0)　　加入收藏

浅谈Google Analytics

1 前言现今互联网上的很多产品、战略决策都由数据驱动，以BulletTech为例，在运营微信公众号时，通过后台数据我们对每篇文章都会进行流量来源、裂变和阅读完关注等重要指标的监控...【详细内容】

2021-08-02　　BulletTech　　　　Tags:Google Analytics 　点击:(95)　　评论:(0)　　加入收藏

百度升级蓝天算法：打击网站出租目录行为

昨晚松松编辑杰哥了解到，百度搜索最近对算法更新了，全面升级“蓝天算法”2.0版本，主要针对高权重网站出租二级目录和二级域名行为，这是要开始加大清洗目录出租站点了吗? 根据杰...【详细内容】

2021-07-29　　卢松松　　　　Tags:蓝天算法　点击:(76)　　评论:(0)　　加入收藏

如何解决网站不收录，网站排名冲突，网站流量不稳定等问题

网罗天下谈运营2021-07-20在做SEO的过程中，对于企业主而言，没有人刚开始建立网站的时候就会先知先觉，采用完全正确的SEO优化方法，这很必然会导致一些问题，比如：① 站内目录层级繁...【详细内容】

2021-07-21　　Lollipop　　　　Tags:网站不收录　点击:(82)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游