扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:IT168网站 2010年1月25日
关键字: SQL Server
因为贵企业在其交易系统顶部构建分析和商业智能系统,所以您可能已经注意到关键性能指示器和数据挖掘预测的可靠性完全取决于数据的有效性。尽管有效数据对于做出商业决策的重要性日益增强,但确保数据有效性的难度也在不断加大。数据正在源源不断地从各种系统和源流入您的企业和大量用户。
很难定义数据质量的度量标准,因为它们针对于特定的域或应用程序。定义数据质量的一个常用方法是数据事件探查。
数据配置文件是有关数据的汇总统计的集合,可能包含下列内容:
· 用户表中的行数。
· State 列中非重复值的数量。
· Zip 列中空值或缺少值的数量。
· City 列中的值的分布情况。
· Zip 列中 State 列的函数依赖关系的强度,即对于给定的 zip 值,此状态应始终不变。
1.启动服务器(使用 Hyper-V)。
注意:由于某些虚拟机配置和实验环境设置,很可能不需要您启动 Hyper-V Manager即可启动实验环境。在某些实验环境中,也不要求您登录到虚拟机,因为此配置可能已预设或保存。
(1)从Start菜单启动 Hyper-V Manager。
(2)右键选择 Bin07_SQL2008HOLS,然后单击Start。
(3)再双击Bin07_SQL2008HOLS,打开虚拟机窗口。
(4)您可以按Ctrl+Alt+Break将虚拟机切换到全屏显示。若要将虚拟机切换回窗口显示,则再次按下Ctrl+Alt+Break。
(5)使用密码 pass@word1 以Student 身份登录
2.在 Business Intelligence Development Studio 中启动 SSIS 解决方案。
解决方案资源管理器是 Microsoft 中的一个组件,您可以用来查看和管理项目。
(1)单击Start | All Programs | Microsoft SQL Server 2008。右键单击 SQL Business Intelligence Development Studio,然后选择Run as Administrator。在出现提示时单击Continue。
(2)单击File | New Project,然后从商业智能项目类型中在 Visual Studio 安装的模板下选择 Integration Services Project。
(3)在New Project对话框的Solution Name文本框中键入 SSISAdvancedLAB 作为解决方案名称
(4)将Location更改为:C:\\SSISHOLS\\SSIS。
(5)单击OK
(6)在Solution Explorer中,单击 SSIS Packages,然后将 package.dtsx 文件重命名为 DataProfile.dtsx
(7)在对话框中单击Yes可将包对象重命名。
3.数据配置文件任务
(1)Control Flow 设计器
(2)Data Profiling task是从顶部开始第 10 个任务。
4.使用数据配置文件任务
(1)拖放Data Profiling Task或在工具框中双击Data Profiling Task
(2)在图面上双击Data Profiling Task
(3)DestinationType 属性指定将如何存储配置文件结果。默认情况下是 FileConnection,表示数据配置文件将存储在 XML 文件中。您也可以将配置文件存储在变量中,这样您便可以实施基于数据质量的控制流逻辑。例如,如果数据质量低于特定的质量,您可以发送电子邮件或启动清洗操作。对于此实验,只选择默认值 FileConnection 即可。将 OverwriteDestination 属性更改为 True。
(4)Destination 属性通过 SSIS 文件连接管理器指定用于存储结果的实际文件名。在下拉菜单中,选择“Choose New File Connection…”。
(5)将Usage type: 更改为Create file
5.选择文件位置
(1)浏览到 C:\\SSISHOLS\\SSIS\\ProfileResults ,然后在File name属性中选择 ClientProfile.xml。
(2)单击OK
相关阅读:
6.对表进行事件探查
单击Data Profiling Task Editor底部附近的Quick Profile(快速配置)按钮。单击New以配置连接到数据库。“快速配置文件”选项是一种很好的方法,可以为单个表快速设置一组简单但功能强大的数据配置文件,您还可以使用“配置文件请求”页以获得功能更强大的配置文件。
7.配置连接
在Server Name(服务器名)中键入 MIAMI。选择 Use Windows Authentication(使用 Windows 身份验证),在Connect to a database(连接到数据库)选项卡上,选择 SSISTRAINING 作为数据库。单击Test Connection(测试连接),如果连接正常则单击OK,然后单击OK以关闭此对话框。
8.选择表
从Table or View下拉列表中选择 DimClientFull。选中Compute(计算)下的所有七个属性。单击OK。
9.完成配置
单击OK。现在配置任务已完成,可以对表进行事件探查。“Control Flow ”面板上的Data Profiling Task 不显示红色十字符号
相关阅读:
10.保存解决方案
单击File | Save以保存解决方案
11.执行包
右键单击 DataProfile.dtsx,然后单击Execute Package(执行包)
12.包执行
Data Profiling Task 在执行时变为黄色,当成功完成执行后变为绿色。
13.停止包
单击Stop(停止)符号以退出包执行模式。SSIS 已对此数据库中的数据进行了事件探查,并将结果存储在以上指定的文件中。
14.分析数据
根据公司对数据质量的要求,需要分析数据是否符合以下几个方面
·每个客户端必须是唯一可识别的客户端,且不应该包括任何重复内容
·人口统计信息不得为空
·城市应包含相应的国家地区代码组合
我们现在将查看 SSIS 生成的配置文件,以验证是否满足这些要求。
15.使用数据配置文件查看器
(1)Data profile viewer(数据配置文件查看器)是用于分析配置文件结果的工具。Start | All Programs | Microsoft SQL Server 2008 | Integration Services | Data Profile Viewer。
(2)单击Open并导航到 C:\\SSISHOLS\\SSIS\\ProfileResults ,然后打开 ClientProfile.xml
(3)这将加载统计数据以准备好进行分析,如下所示:
相关阅读:
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者