Dodis表数据分层间增量同步

想用doris做实时数仓分层,外部数据采用FlinkCDC实时采集至ods层doris表(Duplicate模型),ods层数据如何增量近实时同步至dwd层,请问有什么好的实践方案吗?用insert into select 怎么保证数据的精准一次?

  1. insert into 通过时间切分来实现
  2. insert into select 是事务性的,这块可以保障一致性
  3. 如果Duplicate模型历史的数据有变跟需要对增量数据进行重新执行ETL
  4. 明细模型可以通过雾化试图实时对数据进行分析,生成上层统计数据
1 个赞

“insert into 通过时间切分来实现”,我们除去正常实时入库的数据外,还存在部分离线数据,所以不太能选择业务时间;按照入库时间的话,补录数据的入库时间又比较集中,不好做切分。所以还想请问下 这个时间字段还有什么别的建议吗?