科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道基础软件PHP实现简单线性回归之数据研究工具

PHP实现简单线性回归之数据研究工具

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

简单线性回归建模背后的基本目标是从成对的 X值和 Y值组成的二维平面中找到最吻合的直线。

作者:Paul Meagher 来源:ibm 2007年10月21日

关键字: Linux

  • 评论
  • 分享微博
  • 分享邮件
输出方法

  既然您已经用 PHP 实现了概率函数,那么开发基于 PHP 的数据研究工具剩下的唯一难题就是设计用于显示分析结果的方法。

  简单的解决方案是根据需要将所有实例变量的值都显示到屏幕上。在第一篇文章中,当显示燃耗研究(Burnout Study)的线性方程、 T值和 T 概率时,我就是这么做的。能根据特定目的而访问特定值是很有帮助的, SimpleLinearRegression 支持此类用法。

  然而,另一种用于输出结果的方法是将输出的各部分系统化地进行分组。如果研究用于回归分析的主要统计软件包的输出,就会发现它们往往是用同样的方式对输出进行分组的。它们往往有 摘要表(Summary Table)偏离值分析(Analysis Of Variance)表、 参数估计值(Parameter Estimate)表和 R 值(R Value)。类似地,我创建了一些输出方法,名称如下:
  • showSummaryTable()
  • showAnalysisOfVariance()
  • showParameterEstimates()
  • showRValues()
  我还有一个用于显示线性预测公式的方法( getFormula() )。许多统计软件包不输出公式,而是希望用户根据上述方法的输出构造公式。部分是由于您最后用来对数据建模的公式的最终形式可能由于下列原因而与缺省公式不同:
  • Y轴截距没有有意义的解释,或者
  • 输入值可能是经过转换的,而您可能需要取消对它们的转换以获取最终的解释。

  所有这些方法都假定输出媒介是网页。考虑到您有可能希望用非网页的其它媒介输出这些汇总值,所以我决定将这些输出方法包装在一个继承了 SimpleLinearRegression 类的类中。 清单 2中的代码旨在演示输出类的通用逻辑。为了使通用逻辑更突出,所以除去了实现各种 show方法的代码。

  清单 2. 演示输出类的通用逻辑


 
<?php  

  // HTML.php  

  // Copyright 2003, Paul Meagher  
  // Distributed under GPL    

  include_once "slr/SimpleLinearRegression.php";  

  class SimpleLinearRegressionHTML extends SimpleLinearRegression {  

    function SimpleLinearRegressionHTML($X, $Y, $conf_int) {  
      SimpleLinearRegression::SimpleLinearRegression($X, $Y, $conf_int);  
    }  

    function showTableSummary($x_name, $y_name) { }  
        
    function showAnalysisOfVariance() { }  

    function showParameterEstimates() { }  

    function showFormula($x_name, $y_name) { }  

    function showRValues() {}  
  }  

  ?>  

  这个类的构造函数只是 SimpleLinearRegression 类构造函数的包装器。这意味着如果您想显示 SimpleLinearRegression 分析的 HTML 输出,则应该实例化 SimpleLinearRegressionHTML 类,而不是直接实例化 SimpleLinearRegression 类。其优点是不会有许多未使用的方法充斥 SimpleLinearRegression 类,并且可以更自由地定义用于其它输出媒介的类(也许会对不同媒介类型实现同一 API)。

  图形输出

  迄今为止,您已经实现的输出方法都以 HTML 格式显示汇总值。它也适合于用 GIF、JPEG 或 PNG 格式显示这些数据的分布图(scatter plot)或线图(line plot)。

  与其亲自编写生成线图和分布图的代码,我认为最好使用名为 JpGraph的基于 PHP 的图形库。JpGraph 正由 Johan Persson 积极开发,其 项目网站这样描述它:

  无论是对于只有最少代码的“以快捷但不恰当方式获得的”图形,还是对于需要非常细粒度控制的复杂专业图形,JpGraph 都可以使它们的绘制变得简单。JpGraph 同样适用于科学和商业类型的图形。

  JpGraph 分发版中包含大量可以根据特定需求进行定制的示例脚本。将 JpGraph 用于数据研究工具非常简单,只需找到功能与我的需求类似的示例脚本,然后对该脚本进行改写以满足我的特定需求即可。

  清单 3中的脚本是从样本数据研究工具( explore.php)中抽取的,它演示了如何调用该库以及如何将来自于 SimpleLinearRegression 分析的数据填入 Line 和 Scatter 类。这段代码中的注释是 Johan Persson 编写的(JPGraph 代码库的文档化工作做得很好)。

  清单 3. 来自于样本数据研究工具 explore.php 的函数的详细内容


 
<?php  

  // Snippet extracted from explore.php script  

  include ("jpgraph/jpgraph.php");  
  include ("jpgraph/jpgraph_scatter.php");  
  include ("jpgraph/jpgraph_line.php");  

  // Create the graph  
  $graph = new Graph(300,200,'auto');  
  $graph->SetScale("linlin");  

  // Setup title    
  $graph->title->Set("$title");  
  $graph->img->SetMargin(50,20,20,40);     
  $graph->xaxis->SetTitle("$x_name","center");  
  $graph->yaxis->SetTitleMargin(30);       
  $graph->yaxis->title->Set("$y_name");   

  $graph->title->SetFont(FF_FONT1,FS_BOLD);  

  // make sure that the X-axis is always at the  
  // bottom at the plot and not just at Y=0 which is  
  // the default position    
  $graph->xaxis->SetPos('min');  

  // Create the scatter plot with some nice colors  
  $sp1 = new ScatterPlot($slr->Y, $slr->X);  
  $sp1->mark->SetType(MARK_FILLEDCIRCLE);  
  $sp1->mark->SetFillColor("red");  
  $sp1->SetColor("blue");  
  $sp1->SetWeight(3);  
  $sp1->mark->SetWidth(4);  

  // Create the regression line  
  $lplot = new LinePlot($slr->PredictedY, $slr->X);  
  $lplot->SetWeight(2);  
  $lplot->SetColor('navy');  

  // Add the pltos to the line  
  $graph->Add($sp1);  
  $graph->Add($lplot);  

  // ... and stroke  
  $graph_name = "temp/test.png";  
  $graph->Stroke($graph_name);  
  ?>  
  <img src='<?php echo $graph_name ?>' vspace='15'>  

  ?> 
    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章