科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道如何在分析应用中使用数据挖掘(5)

如何在分析应用中使用数据挖掘(5)

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

数据挖掘是SQL Server 2000中最令人激动的新功能之一。我将数据挖掘看作是一个能够自动分析数据以获取相关信息的过程,数据挖掘可以和任一关系数据库或者OLAP数据源集成使用,但它和OLAP的集成所带来的好处却是极为显著的。

作者:tech.ddvip.com 来源:tech.ddvip.com 2007年9月5日

关键字: 数据挖掘 数据库 SQL Server SQL Server 各版本

  • 评论
  • 分享微博
  • 分享邮件

下面是用Visual Basic编写的用来演示上述的命令运行的一小段程序:

  
    Const sGUID_SCHEMA_SERVICE_PARAMETERS 
        As String = "{3ADD8A75-D8B9-11D2-8D2A-00E029154FDE}"
     Const sGUID_SCHEMA_MINING_SERVICES As String = "
        {3ADD8A95-D8B9-11D2-8D2A-00E029154FDE}"
     Const sGUID_SCHEMA_MINING_MODELS As String = "
        {3ADD8A77-D8B9-11D2-8D2A-00E029154FDE}"
     Const sGUID_SCHEMA_MINING_COLUMNS As String = "
        {3ADD8A78-D8B9-11D2-8D2A-00E029154FDE}"
     Const sGUID_SCHEMA_MODEL_CONTENT As String = "
        {3ADD8A76-D8B9-11D2-8D2A-00E029154FDE}"
     Const sGUID_SCHEMA_MODEL_CONTENT_PMML As String = "
         {4290B2D5-0E9C-4AA7-9369-98C95CFD9D13}"
  
     Dim m_conn As New ADODB.Connection
  
     Private Sub ExecuteMDX(ByVal v_sMDX As String)
      On Error GoTo ErrHandler
  
      Dim cmd As New ADODB.Command
      Dim rec As Recordset
      Dim nNum As Integer
  
      Set cmd.ActiveConnection = m_conn
      cmd.CommandText = v_sMDX
      Set rec = cmd.Execute(nNum)
  
      MsgBox "Command Executed Successfully. " & nNum & " 
          rows affected.", vbOKOnly + vbInformation
     Exit Sub
  
     ErrHandler:
      MsgBox Err.Description, vbExclamation
     End Sub
  
     Private Sub Form_Load()
      ' Specify .2 on the provider so only SQL 2000 will work
      ' Connect to a server on the local PC. 
         Change this if you are connecting
      ' to another PC with Analysis Services.
      Call m_conn.Open("PROVIDER=MSOLAP.2;Data Source=LOCALHOST;")
  
      ' Create the mining model
    Call ExecuteMDX( _"CREATE OLAP MINING MODEL [Local Find Salary] " & _
       "From [Sales] " &  "( " & " CASE " & _
       " Dimension [Customers] " & _
       " Level [Name] " & _
       " PROPERTY [Gender] ," & _
       " PROPERTY [Marital Status] ," & _
       " PROPERTY [Education] ," & _
       " PROPERTY [Yearly Income] PREDICT " & _
       ")" & _
       "USING Microsoft_Decision_Trees")
  
       ' Fill the mining model
       Call ExecuteMDX("INSERT INTO [Local Find Salary]")
  
       ' Create a virtual cube based on the mining model
       Call ExecuteMDX( _
        "CREATE SESSION VIRTUAL CUBE [PredictIncomeCube] " & _
        "FROM [Sales] " & _
        "( " & _
        " MEASURE [Sales].[Unit Sales] , " & _
        " DIMENSION [Sales].[Customers], " & _
        " DIMENSION [Sales].[Time], " & _
        " DIMENSION [PredictIncome] NOT_RELATED_TO_FACTS " & _
        " FROM [Local Find Salary] " & _
        " COLUMN [Customers.Name.Yearly Income] " & _
       ") ")
  
      Dim recCols As Recordset
      Dim vtRestrict As Variant
  
      vtRestrict = Array(Empty, Empty, "Local Find Salary")
  
      ' open the data mining model's content as a rowset
      Set recCols = m_conn.OpenSchema(adSchemaProviderSpecific, 
           vtRestrict, sGUID_SCHEMA_MODEL_CONTENT)
  
      ' display each node caption of the resulting decision tree
      Do While Not recCols.EOF
       MsgBox recCols.Fields("NODE_CAPTION").Value
       recCols.MoveNext
      Loop
  
      m_conn.Close
     End Sub

不幸的是你不得不使用这样的程序而不是MDX范例,因为命令的执行必须用到一个返回记录集,而不是在前面讨论的三全命令中使用的标准的多维单元集,而后打开一个微软专有的图表记录集(我在例程中添加了OpenSchema函数来说明如何获取挖掘模型的内容)。例程仅仅列出了决策树中每一结点的名称,记录集被组织成象父子维表一样的结构,该记录集的每个记录在决策树中确定一个结点,并具有一个NODE_UNIQUE_NAME和PARENT_UNIQUE_NAME字段。PARENT_UNIQUE_NAME确定包含当前行的父纪录的记录。

在例程的开始,是一个包含GUID的列表,可以利用它访问所有和数据挖掘相关的特定提供者的记录集。在上面例程中没有用到它们,但如果你计划开发支持数据挖掘功能的应用程序,不妨试试它们。

比想象的要简单

当我第一次看OLE DB for DM的详细说明时,认为要完成一个简单的数据挖掘也需要程序员或应用程序用户提供如此多的信息,以至于怀疑它对于普通决策者是否有用。但通过深入的研究,我明白了它之所以看起来比较复杂,是因为在挖掘关系数据库需要较多的信息,挖掘OLAP多维数据集则不需要太多的信息。OLAP数据挖掘是简单、快速、有用的,决策树算法是一种可以帮助我们对大量数据进行结构化处理从而获取有用信息的好方法。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章