科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航



ZDNet>软件频道>数据库-zhiding>如何在不同的数据库中解析SQL Server数据

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

数据建模者和DBA面对的一个非常普遍的问题就是,如何在不同的数据库中解析SQL数据。本文将通过一个可靠的方法来说明这个问题。

在软件开发的初始阶段,开发商们总是想把整个系统的最小的细节设计好了,然后再去单线程的编写代码。这样软件开发完成需要很长时间,但开发商们一直都在这么做。

所以开发者不得不去缩小他们的野心,先设计好一个小系统,然而这个小系统只是解决了整个系统难题中的一部分。这导致了由不同的团队设计和创建的许多小系统几乎都不能相互之间兼容。

目前,许多组织都聘请了数据库建模者或者DBA,这些人能监督数据库设计和开发。不幸的是,那些组织只有在出现某些状况后,才会意识到在他们的员工中需要这样的人。

数据建模者和DBA面对的一个非常普遍的问题就是,如何在不同的数据库中解析SQL数据。本文将通过一个可靠的方法来说明这个问题。

一个实例

在这个实例方案中,有两个包含相似数据的数据库:一个使用术语OrderNumber,另一个使用术语OrderNo。第一个数据库有关键字而第二个数据库没有。

首先,你会在两个数据库中发现它们的顺序是相似的。清单A创建了两个数据库(Test_Cross_1和Test_Cross_2),每个数据库中有一个表(分别是Orders_1和Orders_2)。

假设Orders_1包括这些行:

OrderNumberOrderDate

  • 2007-02-23 00:00:00.000
  • 2007-02-24 00:00:00.000
  • 2007-02-25 00:00:00.000

假设Orders_2包括这些行:

OrderNo     OrderDate

  • 2007-02-23 00:00:00.000

2     2007-02-24 00:00:00.000

  • 2007-02-24 00:00:00.000

3011  2007-02-25 00:00:00.000

一旦你明白了如何引用表SQL执行合并操作是很简单的。简而言之,你要有合法的名字。如清单B所示。这将不会成功,因为Order_2包括一行Order_1没有的数据。改变连接,加入对外连接符也不会成功,就像你在清单C中看到的那样。第二个查询得到跟第一个查询相同的结果,因为OrderNo 301不存在于第一个表中。找到这一行,你必须在第二个查询中,将这个表的顺序反转。如清单D。现在你就能发现不匹配的行了。

OrderNo     OrderDate   OrderNumberOrderDate

1     2007-02-23 00:00:00.0001     2007-02-23 00:00:00.000

2     2007-02-24 00:00:00.0002     2007-02-24 00:00:00.000

  • 2007-02-24 00:00:00.000NULL  NULL
  • 2007-02-25 00:00:00.0003011  2007-02-25 00:00:00.000

假设有一些行存在于Order_1中而不存在于Order_2中。你将上面的查询翻转,它也能工作,然而,随后你会得到两个查询和两个结果集,并结束你的查询,这些你都必须手动比较。如果每个表只有四行,这是不困难的,但是想象一下如果有4,000行记录的话,怎么使用这种不切实际的方法进行比较呢。你必须对两个表的每行没出现在另外那张表的记录进行检查。

这个方案完成了两个查询的合并。为了更明确的标识行源,我必须在清单E中包括一个初始列,这个初始列定义了源表。

我在Orders_1中增加了一行数据,这行数据是在Orders_2中找不到的。下面是结果集:

 (No column name)OrderNo     OrderDate   OrderNumberOrderDate

T1    1     2007-02-23 00:00:00.0001     2007-02-23 00:00:00.000

T1    2     2007-02-24 00:00:00.0002     2007-02-24 00:00:00.000

T1    4     2007-02-26 00:00:00.000NULL  NULL

T1    3011  2007-02-25 00:00:00.0003011  2007-02-25 00:00:00.000

T2    1     2007-02-23 00:00:00.0001     2007-02-23 00:00:00.000

T2    2     2007-02-24 00:00:00.0002     2007-02-24 00:00:00.000

T2    301   2007-02-24 00:00:00.000NULL  NULL

T2    3011  2007-02-25 00:00:00.0003011  2007-02-25 00:00:00.000

这个查询清单的所有行都来自于这两张表。要解决我们最初的问题,这可能已经足够了,但我们真正关心的是不匹配的行。你可以在每个连接之前,先将清单与Null进行查询测试,这样就可以把清单中的记录减少到只有不匹配的行,如清单F所示。

这样你就得到了一个真正有用的结果集了:

 (No column name)OrderNo     OrderDate   OrderNumberOrderDate

T1    4     2007-02-26 00:00:00.000NULL  NULL

T2    301   2007-02-24 00:00:00.000NULL  NULL

现在,你就可以为如何解决两个数据集的这个问题而做出明智的决定了。

注意实例:如果我假设几乎相同结构的表的话,保存信息是很简单的。在实践中,如果一个列名不同,另外一个(或更多)列名更有可能不同。列数可能也不同,但是那个问题超过了这个技巧的要解决的范围。我已经说明了一个在两个表之间确定差别的可靠方法,同时这个方法避免了使用NOT IN()来降低性能。

责任编辑:德东

查看本文国际来源

CREATE DATABASE [Test_Cross_1] ON  PRIMARY 
( NAME = N'Test_Cross_1', FILENAME = N'C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\DATA\Test_Cross_1.mdf', SIZE = 2048KB , MAXSIZE = UNLIMITED, FILEGROWTH = 1024KB )
 LOG ON
( NAME = N'Test_Cross_1_log', FILENAME = N'C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\DATA\Test_Cross_1_log.ldf', SIZE = 1024KB , MAXSIZE = 2048GB , FILEGROWTH = 10%)
GO
USE [Test_Cross_1]
GO
CREATE TABLE [dbo].[Orders_1](
      [OrderNumber] [int] NOT NULL,
      [OrderDate] [datetime] NOT NULL,
 CONSTRAINT [PK_Orders_1] PRIMARY KEY CLUSTERED
(
      [OrderNumber] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY]
) ON [PRIMARY]

CREATE DATABASE [Test_Cross_2] ON  PRIMARY
( NAME = N'Test_Cross_2', FILENAME = N'C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\DATA\Test_Cross_2.mdf', SIZE = 2048KB , MAXSIZE = UNLIMITED, FILEGROWTH = 1024KB )
 LOG ON
( NAME = N'Test_Cross_2_log', FILENAME = N'C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\DATA\Test_Cross_2_log.ldf', SIZE = 1024KB , MAXSIZE = 2048GB , FILEGROWTH = 10%)
GO
CREATE TABLE [dbo].[Orders_2](
      [OrderNo] [int] NOT NULL,
      [OrderDate] [datetime] NOT NULL CONSTRAINT [DF_Orders_2_OrderDate]  DEFAULT (getdate()),
 CONSTRAINT [PK_Orders_2] PRIMARY KEY CLUSTERED
(
      [OrderNo] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY]
) ON [PRIMARY]
SELECT * FROM Test_Cross_1.dbo.Orders_1
INNER JOIN Test_Cross_2.dbo.Orders_2
ON Test_Cross_1.dbo.Orders_1.OrderNumber = Test_Cross_2.dbo.Orders_2.OrderNo
SELECT * FROM Test_Cross_1.dbo.Orders_1
LEFT OUTER JOIN Test_Cross_2.dbo.Orders_2
ON Test_Cross_1.dbo.Orders_1.OrderNumber = Test_Cross_2.dbo.Orders_2.OrderNo
SELECT * FROM Test_Cross_2.dbo.Orders_2
LEFT OUTER JOIN Test_Cross_1.dbo.Orders_1
ON Test_Cross_2.dbo.Orders_2.OrderNo = Test_Cross_1.dbo.Orders_1.OrderNumber
SELECT 'T2',* FROM Test_Cross_2.dbo.Orders_2
LEFT OUTER JOIN Test_Cross_1.dbo.Orders_1
ON Test_Cross_2.dbo.Orders_2.OrderNo = Test_Cross_1.dbo.Orders_1.OrderNumber
UNION
SELECT 'T1',* FROM Test_Cross_1.dbo.Orders_1
LEFTOUTERJOIN Test_Cross_2.dbo.Orders_2
ON Test_Cross_1.dbo.Orders_1.OrderNumber = Test_Cross_2.dbo.Orders_2.OrderNo
SELECT 'T2',* FROM Test_Cross_2.dbo.Orders_2
LEFT OUTER JOIN Test_Cross_1.dbo.Orders_1
ON Test_Cross_2.dbo.Orders_2.OrderNo = Test_Cross_1.dbo.Orders_1.OrderNumber
WHERE OrderNumberISNULL
UNION
SELECT 'T1',* FROM Test_Cross_1.dbo.Orders_1
LEFT OUTER JOIN Test_Cross_2.dbo.Orders_2
ON Test_Cross_1.dbo.Orders_1.OrderNumber = Test_Cross_2.dbo.Orders_2.OrderNo
WHERE OrderNo IS NULL
推广二维码
邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题