画像场景下Doris功能及性能优化需求

需求说明

  1. 聚合函数对枚举值字段进行分布统计,一次性输出每个枚举值分布的count,null count,总count信息;支持单列/多列操作
  2. 聚合函数对数字转换成二进制位,分别对按位统计count;支持单列/多列操作
  3. 对多列进行相同聚合count计算时性能优化, 1、聚合函数支持变长参数传入多列,函数内部计算按照列并行化;2、多个单列聚合函数同时使用,聚合函数计算并行化
  4. 聚合函数对数据进行group by后,将分组明细数据加工成array存储
  5. 标量函数对array类型字段逐项按规则加工为array
  6. 标量函数支持array字段和array字段加工,支持array字段和普通字段交叉加工
  7. count distinct <数据分布列>计算性能优化,count distinct整体下推到scan阶段,在scan阶段完成count distinct,下一阶段对count进行聚合
  8. 同表更新性能优化,部分列更新场景,由于数据分桶键不变,数据更新本身可以在物理存储节点完成更新闭环
  9. 同分桶键表复制性能优化,全量更新场景,在源表和目标表数据分桶键一致情况下,数据复制本身可以在物理存储节点完成更新闭环
  10. 部分列更新,Null值作为有意义的值进行更新
  11. 外部大数据量导入同时需要数据ETL场景下提升导入速度,1、支持底层文件灌库,提供底层文件加工规范,利用外部计算能力提前加工好底层文件,直接导入底层文件;2、利用BrokerLoad导入优势,导入过程支持数据ETL
  12. 全表替换更新原子操作,doris内部完成创建新表->插入新表数据->新表替换旧表原子操作
  13. k8s部署FE动态自动扩缩容,支持FE扩缩容、Playground登录Token共享;BE动态自动缩容