扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
2.4 所有操作的并行化
1、聚集操作——在各个子任务执行聚集函数,必要时在全局执行最后的处理。对 Group By 子局来说,重新分片可能比直接采用输入数据具有更好的并行性。
2、集合操作——采用 collocated, repartitioned 策略。注意 UNION 可以是一个 N 元操作。
3、带有子查询的 Insert 语句, Update 和 Delete 语句—— Insert 语句和子查询可能是 collocated 。或者采用 directing 方式。 Update 和 Delete 总是和相应的查询 collocated ( Update 如果发生在分片属性上,还需要考虑重新分片受到影响的元组)。
4、外连接——主要的策略与普通的连接一致,但是要避免产生多个由于没有匹配元组而产生的结果元组。
5、子查询——把子查询的结果发送到计算包含子查询的谓词的节点采用 collocated, directed, broadcast 方法。
3. 子查询的处理
嵌套查询的例子:
select *
from t1
where t1.a in (select b
from t2
where t2.c = t1.a and t2.d in (select b
from t3
where t3.a = 10
));
最里面的子查询只需要执行一次即可。但是下面的查询则不然:
select *
from t1
where t1.a in ( select b
from t2
where t2.c = t1.a and t2.d in ( select b
from t3
where t3.a = t1.f
));
子查询处理需要注意的问题包括:
(1) 避免为每个外查询产生的元组启动一个子查询,这样的代价太大了;
(2) 保证产生外查询元组的不同节点不会因为子查询的执行而串行化;
(3) 保证正确的外查询节点得到执行的结果;
(4) 尽量下移谓词,从而减少数据的传输。
我们用一个简单的一层相关查询来看看 DB2 是如何处理嵌套查询的:
select *
from t1
where t1.a > ( select avg(t2.b)
from t2
where t2.c = t1.d
);
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者