外媒 VentureBeat 报道称,谷歌希望将发展数十年的 robots.txt 解析器开源,以推动 REP 成为搜索引擎爬虫的行业标准。
机器人排除协议(REP)是荷兰软件工程师 Martijn Koster 于 1994 年提出的一个标准,几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准。
(截图 via VentureBeat)
比如谷歌爬虫(Googlebot)就会在索引某个网站时扫描 robots.txt 文件,以确定其应该忽略掉哪些部分。如果根目录中未包含该文件,那搜索引擎就会默认索引(index)全站内容。
值得一提的是,,该文件不仅可以用于提供直接的爬虫索引,还可以被用来填充一些关键字,以实现“搜索引擎优化”(SEO)。此外,并非所有抓取工具都会严格遵从 robots.txt 文件。
比如几年前,互联网档案光就选择了为其“时光机”(Wayback Machine)归档工具提供支持,另外一些恶意抓取工具也会有意忽略 REP 。
不过需要指出的是,即便 REP 已经成为了默认的实施标准,但它实际上从未成为真正的互联网标准,正如互联网工程任务组(IETF - 一家非营利性开放标注组织)所定义的那样。
为了推动这项转变,谷歌正在积极参与行动。这家搜索巨头表示,当前的 REP 可以被“解释”,但并不总是涵盖边缘化的案例。
作为补充,谷歌提出了更全面的“未定义场景”。比如在执行一次“扫描已知内容”的任务时,爬虫该如何处理“服务器出现不可访问故障”的 robots.txt 文件、或者有拼写错误的规则?
谷歌在一篇博客文章中写到:“对于网站所有者来说,这是一项极具挑战性的问题。因为模糊的事实标准,让他们很难恰当地编写规则”。
我们希望帮助网站所有者和开发者在互联网上创造出令人惊叹的体验,而无需担心如何对抓取工具加以限制。
于是谷歌与 REP 原作者 Martijn Koster、网站管理员、以及其它搜索引擎合作,向 IETF 提交了一份关于《如何在现代网络上适用 REP》的提案。
该公司尚未公布该草案的全貌,但却是提供了一些指引。比如任何基于 URI 的传输协议,都可以适用 robots.txt 。且其不再局限于 。
据悉,开发者必须至少解析 robots.txt 的前 500 KB 内容。定义文件的大小,可确保每个连接的打开时间不会太长,从而减轻不必要的服务器压力。
另外,新的最大缓存时间被设置为 24 小时(或可用的缓存指令值),使得网站所有者能够随时灵活地更新他们的 robots.txt,且爬虫不会因此而让网站超载。
例如,在 文件由于服务器故障而变得不可用时,则会在相当长的时间段内不再检索该网站。
这里需要点明的是,抓取工具可以用不同的方式去解析 robots.txt 文件中的说明,这可能会导致网站所有者的混淆。
为此,谷歌特地推出了 C++ 库,其支持 Googlebot 在 GitHub 上给出的解析和匹配系统,以供任何人访问。
根据 GitHub 上的发布说明,Google 希望开发者构建自己的解析器,以更好地反映 Google 的 robots.txt 文件的解析和匹配。
本篇文章给大家谈谈电脑显卡相关内容,以及关于电脑显卡对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 文章目录列表: 1、电脑显卡的分类及用途有哪些? 2、怎样设置电脑显卡性能? 3、安...
公司做一个企业网站,需要多少钱,要根据具体需求来定: 目前市面上大概分几种: 1、完全套用模板,只做文字内容的替换和填充(最便宜,在2000-4000不等) 2、借用模板,做一些简单的调整,但不...
郑州市中小学放假安排已经出炉大家注意了,郑州市中小学放假时间已经确定了!6月6日,郑州市教育局在官方网站上发布了一则消息,消息的内容是关于郑州市中学校放暑假的。根据6月5日郑州市教育局发布的《关于20...
一个非常好的问题。我是工作多年的Web应用架构师,来回答一下这个问题。欢迎关注我,了解更多IT专业知识。 常用的国内外代码托管网站: 1,Github 应该是最常用的代码托管网站了,各项功能完善。实际...
望早期以纯文本形式建立的网站(纯技术型)到现在DIY型网站(懒人易操作型)可谓是质的飞跃。但一个网站的建立除网站代码文件外还需要域名和空间。所以接下来,我就简单介绍下一个新网站建成的步骤,希望想要自己...
这个要根据个人需求来决定是否需要购买域名,如果只是静态博客网站可以不必购买域名,可以使用一些提供博客服务的网站的二级域名,域名只能是主域名下的二级域名,域名没有可选择性。 如果想要自己部署服务,则最好...
首先,你需要一个产品经理来对你的电商网站有一个总的规划。从前端的展示到后台功能的开发,整个流程都要有一个大体的概念。前端的展示涉及到UI、排版等等,后台涉及到商品发布等等。网站制作雏形出来之后,要进行...
去年11月刚好建立了属于自己的第一个网站,从域名的申请到网站结构的搭建、文章的上、流量的监控,后来还帮助一个老乡搭建了网站。算得上有一定的经验吧!下面跟大家分享一下我的第一次建站经验吧! 1、建站前...