Internet问世以前,你在需要信息时可以依赖图书馆。接受了信息检索的专业培训之后,图书管理员知道如何使用布尔逻辑、加号、减号和其他符号来构造复杂的查询。查询是针对结构化的信息而执行的,这些信息进行了正确的分类,并都标注了图书编目号码。但在Web上,许多人认为信息很容易访问,所以只需将数据直接倾倒在“信息高速公路”上就可以了,根本不关心它们的组织问题。
所以诞生了搜索引擎,人们为此进行了艰苦的劳动,以便从Web的荒原上提取有用的信息。但令人遗憾的是,我们中的大多数人都没有学习过图书馆管理专业,所以只能限于执行近似于野蛮的关键字搜索。现在,问题终于暴露出来了。在Internet问世的多年以后,我们得到的只是一片又一片的信息汪洋,而且局面正在越来越糟。是的,网上有更多的内容可供使用。但假如Web内容没有良好地结构化,就无法方便地查找信息,或者根本找不到自己需要的信息。更糟的是,还有可能找到根本错误的信息。
人们为无序的Web内容所付出的代价是难以估量的,因为取决于具体的查询,查询者很少提前知道答案是否在网上,或者它们具体在什么地方。但是,我们大致可将这些代价划分为: