Google的Deep-Web Crawl

ZDNet软件频道 时间:2008-09-11 作者:冯大辉 |  我要评论()
本文关键词:WEB 网站架构 GOOGLE
Google的Jayant Madhavan在 VLDB 2008会议上做了题为Google's Deep-Web Crawl的报告。这个报告其实也透漏出了Google对一些网站的潜在影响的某个方面。

  搜索引擎的行为会对网站架构稳定性有影响么? 肯定的。影响都有哪些呢? 且说,GOOGLE 的 Jayant Madhavan在 VLDB 2008会议上做了题为 GOOGLE's Deep-WEB Crawl的报告。这个报告其实也透漏出了 GOOGLE 对一些网站的潜在影响的某个方面。

  何为 Deep WEB ?

  HTML表单后的隐藏内容(表单提交后显示的内容)

  通过普通搜索引擎获取不到的内容

  Deep WEB (译为深层网页?) 目前容量大约有多大? 超过100 亿的不重复表单,而且大量都是结构化数据。对搜索引擎用户来说,这部分潜藏的数据是非常有价值的。Deep WEB 包括的信息内容:

  信息型表单;

  登录表单不要;

  交互性表单也有用;

  GOOGLE 的解决办法是基于信息模板(informative templates)。其实不难理解,这些模板(似乎也叫查询模板, Query Template)是在 GOOGLE 进行了大量的数据分析的基础上得出来,然后通过反馈迭代修正,加上GOOGLE 引以自豪的算法啦,渐渐的模板就会很好用了。

  绝大多数网站表单后面是要有数据库支撑的。GOOGLE 自己计算出来的模板实际上会对应被爬行网站的 DB 查询上来(GOOGLE 也是黑箱研究嘛),如果查询模板不是很匹配,或者是 GOOGLE 查询的频率过高,相信会对一个被爬行网站的稳定性带来很大冲击。尤其是针对数据库,一时爆发的大量查询引发的高负载可能会让系统撑不住。

  更多的时候,搜索引擎带给一个网站的访问压力甚至大于用户带来的压力,所以,设计的时候也应该尽量采取悲观的方式,不能完全期待 GOOGLE 以及其他搜索引擎默认行为都是可以承受的。

查看本文来源


百度大联盟认证黄金会员Copyright© 1997- CNET Networks 版权所有。 ZDNet 是CNET Networks公司注册服务商标。
中华人民共和国电信与信息服务业务经营许可证编号:京ICP证010391号 京ICP备09041801号-159
京公网安备:1101082134