数据云URL过滤技术

ZDNet软件频道 时间:2009-11-04 作者: | 网界网 我要评论()
本文关键词:URL过滤 内容过滤 云安全 Windows
当今,互联网给我们带来了生活方式、生产方式上很多的便利与快捷。庞大的网络信息资源,使人们通过浏览器就能便捷的获取到生活或生产过程中所需要的信息。但是,过分或不适当的网络资源访问不仅给企业带来了生产力和网络带宽的损失,还严重威胁着企业的网络安全架构和信息系统,甚至网络上的不适当或非法内容还极大危害着企业员工个人的身心健康甚至给企业带来法律问题。

  当今,互联网给我们带来了生活方式、生产方式上很多的便利与快捷。庞大的网络信息资源,使人们通过浏览器就能便捷的获取到生活或生产过程中所需要的信息。但是,过分或不适当的网络资源访问不仅给企业带来了生产力和网络带宽的损失,还严重威胁着企业的网络安全架构和信息系统,甚至网络上的不适当或非法内容还极大危害着企业员工个人的身心健康甚至给企业带来法律问题。

  面临以上种种问题,该如何解决?全部关闭网络的大门不符合现代人类文明的发展与进步,也不利于合理商业业务的开展。单纯依靠使用者自我约束的网络使用制度也已经无法执行。于是,诞生了专门针对URL进行过滤的技术,以此达到对员工上网浏览内容的控制与管理。

  下面我们将对URL过滤技术的进化做一个简单的介绍。

  20世纪90年代中期,URL过滤解决方案依靠企业内部IT人员人工建立、更新与编辑站点黑白名单。这一做法的缺点是,所有分类由一个或少数几个人自由决定,对于这种资源密集型而且缺乏客观性的站点分类方法,不仅会使许多被认可的网站被封锁或被禁止的网站允许通过,而且随着web站点的快速增长与相关技术的日益复杂,这种方案很难实现客观、细粒度的URL分类,显然不能成为企业或单位有效的URL过滤方案。

  20世纪90年代末,出现了专门对URL进行收集、分类的厂商。URL过滤技术开始采用本地数据库分类引擎。URL及其内容在根据预先定义的类别下通过分类引擎进行相应的关键字查找分析与分类(如赌博、色情及网上购物等),分类好的URL存储在一个集中的主数据库中,然后通过更新复制一份副本移交到客户本地数据库中。这种URL过滤方案的缺点是,随着网页数量的激增,由于一刀切的关键字分类技术和本地分类数据库的限制,无法实现更高、更准确的覆盖率和更广泛的URL分类。

  2000年初,URL过滤解决方案试图采用启发式内容分析的方法,这种动态的分类技术,通过智能分析网站标题和网页html主体中相关内容的概率来确定URL类别。从理论上讲,相比前两类URL分类方案,这是一种很好的分类方法,然而在实际中它本身却存在问题,很多基于启发式的Web内容分析结果没有相关的配套技术实时地发送给终端用户,而且采用的仍然是传统的本地数据库进行存储。但是当今web2.0时代,web数据是一个不定数据且日益多样化的集合体,而每个用户的需求却独特且具体,基于本地URL数据库的过滤技术,只能过滤存储本地用户需要的数据,不能存储所有相关及最新数据,以执行快速和准确的监测,因此这种传统的URL过滤技术也无法应对高度复杂且快速发展壮大的web2.0网络。

  据Google调查,互联网上的网页数量以每天一亿的数量急速增长。以上三种URL 分类方法已经不能够准确有效的收集、分类所有的URL类别。数据存储和处理要求也已经远远超出了本地数据库能力。于是在2009年,业界出现了数据云的URL过滤技术,这类厂商有Commtouch、Anchiva等。这种数据云URL过滤机制,基于云技术的URL收集、分类处理及发放策略,并不依赖于本地数据库有限的资源进行分析与检测,也不依赖于数据库更新最新的URL分类,利用的是专门的分类服务器群,根据实际网络的使用与普及方式对网页内容及语义进行全面分析后的分类。与传统的云不同的是,真正做到了云的客户端自动主动地去云的服务器端获取所需的数据,而不是单纯的基于云服务端的定时推送更新方法。下面我们将借助Anchiva的数据云URL过滤机制对数据云URL过滤技术进行简单的介绍。

  Anchiva(安启华)数据云的URL分析过滤技术由两部分组成:部署在企业网络边界处的Anchiva web安全网关(SWG)和Anchiva基于云的URL分类中心。网关设备和URL分类中心实时通信获取最新的URL分类。不仅打破了传统本地数据库的限制,而且与其他基于云的技术不同的是Anchiva web安全网关中具有URL缓存技术,这个本地的缓存为每一个独立的用户存储最为相关的URL,这些设备本地的URL类别,有效地确保了URL匹配的最佳性能,并且采用的是一种本地缓存自动学习的机制,随着企业用户使用时间的增长,这个本地缓存的URL库会更加的贴近每一个用户的实际需求,将能给客户更加精准的URL过滤

  以下是Anchiva web安全网关URL过滤对HTTP-GET 请求的处理过程:

  1、Anchiva web安全网关的URL匹配处理引擎接受来自本地用户的HTTP-GET请求。

  2、URL匹配处理引擎首先从设备上的本地缓存中查找相关的URL分类。

  3、如果URL匹配处理引擎从本地缓存中查找到了正确的URL分类,那么将该HTTP-GET请求根据客户设定好的相关过滤策略进行允许或阻止的操作。

  4、如果没有在本地缓存中找到正确的URL分类,URL匹配处理引擎会自动将该HTTP-GET请求发送到Anchiva数据云URL分类中心。

  5、Anchiva数据云URL分类中心将自动查询并返回正确的分类给设备的URL匹配处理引擎。

  6、URL匹配处理引擎根据URL分类中心返回的分类对该HTTP-GET请求按照客户设定好的相关过滤策略进行允许或阻止的操作,并在设备本地缓存的URL类别中添加相应的URL分类。

  Anchiva数据云URL过滤处理过程图:

  

  另外,需要大家认清的一点是,任何的URL分类技术在web2.0时代都不可能做到100%的分类,如果用户发出未经分类的浏览请求,则会自动反馈到云端的分类引擎进行分类,在24小时内将对未经分类URL完成分类。如此一来,数据云系统用户形成一个实质用户社区,已被社区用户浏览过的流行站点将被分类并存储,方便下一位用户访问。这种用户互动保证了数据云系统保持不断的更新与扩展,无疑是当今web2.0时代最有效实用且积极主动的一种收集分类处理技术。

  说了这么多,下面我们对几种URL过滤技术做以下对比总结:

  90年代中期

  自分类黑/白名单90年代末

  本地黑/白名单2000年初

  启发式检测分类2009年基于云的URL过滤技术

  分类技术企业IT人员人工分类关键字查询分类引擎启发式的关键字概率分类技术完整的web内容及语义分析技术

  存储方法黑白名单文档本地数据库本地数据库/云端服务器群云端服务器群/本地缓存

  更新方法人工编辑更新黑白名单复制数据库副本更新方法服务器定时推送更新客户端随时获取URL分类更新

  准确性差一般较好极好

  覆盖范围差一般较好极好

  总结缺乏客观性的分类方法,资源集中,不准确。误报、漏报率高,互联网的增长速度远远超过了本地数据库存储能力。服务器不能实时推送准确的分类,没有客户端随时获取技术,客户端使用本地数据库存储,容量有限。无处理性能和本地数据库存储限制,先进的本地缓存自动学习机制,能够满足每个客户独特且具体的需求。

用户评论
用户名
评论内容
发表时间
ZDNet网友
2011-03-18 14:57:01
ZDNet网友
2010-05-21 00:49:14
ZDNet网友
2010-05-21 00:48:00
ZDNet网友
微软应该对自己的用户负责,如果用户完全使用xp升级微软win7,为什么要付出这样麻烦的代价?都是微软出品软件,且都是利用该软件获取信息以及处理文字、多媒体功能,微软应该尽可能方便用户!虽然有时候这样的请求也许跟不上时代技术发展的脚步,但是微软不要以此为借口,认为一切都理所应当,就不可以方便用户。还是要尽力,所谓拿人手短吃人嘴软,商业不正是讲求有商道吗!至少做人需诚实守信,尽可能帮助用户顺利、安全转换操作系统、各种必须软件功能尽可能兼容以及信息尽可能的少丢失!虽然这很大程度仅仅取决于微软等计算机专家、工程师的自我自律约束,我们普通用户恐怕很难知道微软究竟仅了多大力量为用户考虑,但是我相信真相会有被发现的一天,无论多久远。 微软从某种意义上来说,就是一个类似“掌握魔方”操作特别出神入化的公司。几乎奠定了电脑主要的“规则”,但是,我却相信不久将来我们会发现,电脑依然是非常有限的一个小系统而已!随着我们新的关键材料认知突破,电脑系统会真正被另一个革命性新电脑系统所取代,不要以为我这样的说法是无稽之谈不可实现,我却认为很有可能,只看这样的情况发生究竟是快还是慢,是早还是迟!变成历史的小玩具之后的电脑系统,微软会留下良好的历史声名吗?我们拭目以待! 网友::我爱佛祖
2010-02-03 13:52:55
- 发表评论 -
匿名
注册用户

百度大联盟认证黄金会员Copyright© 1997- CNET Networks 版权所有。 ZDNet 是CNET Networks公司注册服务商标。
中华人民共和国电信与信息服务业务经营许可证编号:京ICP证010391号 京ICP备09041801号-159
京公网安备:1101082134