数据仓库及数据整理基础

ZDNet软件频道 时间:2002-04-08 作者:ZDNET CHINA 特稿 |  我要评论()
本文关键词:
本文介绍了什么是数据仓库,它包含了什么技术,能给企业带来什么?

过去,企业数据一般都存储在信息库中,这些数据在物理上被分成许多类来实现某些特定功能,要想很好的对分散的企业数据进行统计是非常困难的,需要很多次的数据提取和再生成。根据不同精度和时限的要求,所有这些数据操作需要付出很高的代价。可喜的是,现在已经有了新的数据仓库技术,同时也有了整理数据的工具。

数据仓库

数据仓库为企业提供了在单一概念上的企业仓库中搜集、存储企业信息的能力,同时还采用基本数据模型技术在单个数据元素和整体数据之间生成很多相关组合,这些组合或者模型通常会生成整体关系图表(ERDs),更高级的技术还有star计划以及snowflake数据模型概念。但是不管选取何种技术,目的都是为了创建元数据模型来表示企业内部信息的使用及相互间的关系。

衡量元数据模型,那么企业用户可以采用元数据分析技术搜集商业知识。例如,特意安排的询问可以在数据仓库中运行以提取企业级信息,这些询问可以提供其他分散信息库所不能获得的信息。

更高级的数据仓库工具箱是与多维数据或立体数据概念合为一体的,这样的数据结构可以让信息具有多索引性能,这样按照数据属性可以快速对数据进行操作。立体数据通常可以用来按不同数据索引实现what-if功能。例如某公司x销售珠宝,并且在Detroit, Pittsburgh, 和 Atlanta都有办公室,如果在索引中选择正确的值,用户就可以做下面的分析:

  • 企业2001年的总收入是多少?
  • Atlanta 11月份的收入是多少?
  • 如果2002年第一季度订单增长了30%,那么Pittsburgh年终收入会是多少?
  • 如果Detroit的办公室倒闭了,对公司造成最小的影响如何?

这种对多种业务的多维分析称为在线分析处理(OLAP), OLAP系统的基本功能是为用户提供对企业整体和细节信息进行人工考察和分析的能力,OLAP要求用户知道他或她正在搜索什么信息,理解这一点非常重要,OLAP并不能为企业处理隐含数据。

数据整理

走入数据整理的概念。在二十世纪90年代中晚期,为了揭示一些隐含数据性质、趋势和模式,很多商家开始探讨把传统的统计和人工智能分析技术应用到大型数据库的可行性问题,这些探讨最终发展成为基于统计分析技术的正规数据整理工具。

从商业角度来看,从前未知的统计分析模式或趋势的发现为企业提供了非常有价值的洞察力。数据整理技术能够为企业对未来的发展具有一定的预见性。而OLTP仅仅能够实现对过去的数据进行分析。数据整理技术可以分成3类:群集、分类和预测。

群集技术就是在无序的方式下集中信息。群集的一个例子就是对未知特点的群体商业客户的分析,对这一例子输入相关信息就可以很好的定义客户的特点。

分类技术就是集中和指定object以预先确定事先定义好值的集合。集合通常用上面的技术来形成,可以举一个例子就是把客户按照他们的收入水平分成特定的销售群体。

预测技术就是对某些特定的对象和目录输入已知值,并且把这些值应用到另一个类似集合中以确定期望值或结果。比如,一组戴头盔和肩章的人是足球队的,那么我们也认为另一组带头盔和肩章的人也是足球队的。

数据整理技术

下面的这几条是现在常用的数据整理技术,每种技术都存在集中变异,而且可以应用到上面几种技术中。

  • 回退模型——这一技术把标准统计技术应用到数据中来证明或推翻事先的假设。一个例子就是线性回退,这种情况下变量是根据一定时间内标准或变化路径来衡量。另一个例子是逻辑回退,这种情况下是根据以前相似事件发生的已知值来确定事件发生的可能性。
  • 可视化——这一技术是建立多维图形,让数据分析人员确定数据的变化趋势、模式以及相互关系。
  • 相关性——这一技术用来确定数据集合内两个或多个变量间的相互关系。
  • 变化分析——这一统计技术是用来确定目标或已知变量与非独立变量或可变数据集合间平均值的差异。
  • 差异分析——这一分类技术用于确定或“区别”集合中的关系要素。
  • 预测——预测技术是根据过去事件的已知值来确定未知结果
  • 群集技术——群集技术是把数据分成很多组,并分析这些组的特性。
  • 决策树——决策树是采用能用“if-then-else”语言表示的规则来分配数据。
  • 神经网络——神经网络是用来模拟已知函数的数据模型,这一技术通过对数据进行迭代,同时在确定变化模式和趋势上有更大的灵活性。

结论

现在的企业在残酷的竞争环境中存在很大压力,传统的事先对数据进行提取和整理的业务处理方式已经不再为人们所接受,相反企业需要通过对可预测行为的分析和预测进行快速决策。数据仓库和数据整理技术就能满足这一需求。

责任编辑:超凡

百度大联盟认证黄金会员Copyright© 1997- CNET Networks 版权所有。 ZDNet 是CNET Networks公司注册服务商标。
中华人民共和国电信与信息服务业务经营许可证编号:京ICP证010391号 京ICP备09041801号-159
京公网安备:1101082134