分享网站建设知识
推动网站应用价值

提供短小精焊并有价值的建站知识分享。

Google 推动将网絡爬虫机器人规范标准化
2019-11-05 18:03:52

网站用来告诉前来搜刮内容的爬虫机器人什么地方能去,什么不能去的「Robot Exclusion Protocol」(REP)协定虽然早在 1994 年就由荷兰软件工程师 Martijn Koster 提出,并由大部份的网站与机器人所遵守,但其实 25 年来它都不是一个真正的「标准」,因此在各家的解析器(Parser)在解译时可能会有所偏差,而且对于许多特殊的状况都没有个明确的规范。

举例来说,一般爬虫机器人都是去网站的根目录寻找 robot.txt 文件,来了解网站对于爬虫机器人活动范围与频度的规范,但如果因为任何原因(例如服务器停摆),使得原本找得到的 robot.txt 找不到了,这时候机器人应该视作无规范、还是照着最后一次读取的 robot.txt 内容进行?又或者,robot.txt 应该多久去查看一次?太频繁的话,会增加服务器无谓的负担,不够频繁的话,新的规格可能要很久才会反应在爬虫机器人上。这些都是在标准规范出来前很难规定的事项。

作为网络爬虫机器人的大本营的 Google,自然对于将这些事务规范化极为上心,除了将对 Internet Engineering Task Force 提出将 REP 协定标准化的提案之外,还加码把自家 Googlebot 机器人的 REP 解析器转为开放原始码,以让标准有一个架构的基础。当然,这并不是说 Google 的版本会原封不动地成为新标准,在制定的过程中势必会有不同利益的折冲,但最终只要能有个标准出来,应该是能降低网站的维护成本及来自机器爬虫的流量,对网站管理者来说怎样都是个好消息吧。

分享该编文章:

免责声明:本站部分文章由本网用户编辑转载并发布,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容![声明]本站文章版权归原作者所有 内容为作者个人观点 本站只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。

相关资讯: