科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道深入讲解数据挖掘中的“数据归约技术”

深入讲解数据挖掘中的“数据归约技术”

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。

作者:赛迪网 Alizze 来源:天新网 2008年3月21日

关键字: 数据库 SQL SQL Server Mssql

  • 评论
  • 分享微博
  • 分享邮件

一、数据归约基本知识:

对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约,主要问题是是否可在没有牺牲成果质量的前提下,丢弃这些已准备和预处理的数据,能否在适量的时间和空间里检查已准备的数据和已建立的子集。

对数据的描述,特征的挑选,归约或转换是决定数据挖掘方案质量的最重要问题。在实践中,特征的数量可达到数百,如果我们只需要上百条样本用于分析,就需要进行维归约,以挖掘出可靠的模型;另一方面,高维度引起的数据超负,会使一些数据挖掘算法不实用,唯一的方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现:列(特征),行(样本)和特征的值,数据归约过程也就是三个基本操作:删除列,删除行,减少列中的值。

在进行数据挖掘准备时进行标准数据归约操作,我们需要知道从这些操作中我们会得到和失去什么,全面的比较和分析涉及到如下几个方面的参数:

(1)计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘消耗的时间。

(2)预测/描述精度:估量了数据归纳和概括为模型的好坏。

(3)数据挖掘模型的描述:简单的描述通常来自数据归约,这样模型能得到更好理解。

数据归约算法特征:

(1)可测性

(2)可识别性

(3)单调性

(4)一致性

(5)收益增减

(6)中断性

(7)优先权

二、数据归约方法:

1、特征归约:

用相应特征检索数据通常不只为数据挖掘目的而收集,单独处理相关特征可以更有效,我们希望选择与数据挖掘应用相关的数据,以达到用最小的测量和处理量获得最好的性能。特征归约处理的效果:

(1)更少的数据,提高挖掘效率

(2)更高的数据挖掘处理精度

(3)简单的数据挖掘处理结果

(4)更少的特征。

和生成归约后的特征集有关的标准任务有两个:

(1)特征选择:基于应用领域的知识和挖掘目标,分析者可以选择初始数据集中的一个特征子集。特征排列算法,最小子集算法

(2)特征构成:特征构成依赖于应用知识。

特征选择的目标是要找出特征的一个子集,此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较,此方法的主要缺点是特征的分布未知。最优方法的近似:

(1)只对有前景的特征子集进行检查

(2)用计算简单的距离度量替换误差度量

(3)只根据大量数据的子集选择特征。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章