华为云计算 云知识 分布列选择的原则有哪些
分布列选择的原则有哪些

选择分布列的时候,一般遵循下面三个原则:
1.尽量选择离散值比较多的列,保证数据均匀分布。分布均匀是为了避免木桶效应,各个DN对等执行。
2.在满足第一条原则的情况下,不要选择存在常量过滤的列。
3.满足前两条原则的情况下,尽量选择关联字段或聚合字段做分布列,这种方式是为了避免数据节点之间数据重分布,降低IO的开销从而提升关联操作和聚合操作的性能。

分布列选择原则示意图

上一篇:好会计智能云财务软件 下一篇:JpegOptim是什么