5月11日 在 Apache Doris 2.0 Alpha 版本 Release Webinar 的线上直播中,SelectDB 技术副总裁 肖康、Apache Doris Committer 鲁大师 与大家线上分享了 2.0 Alpha 版本的重要功能、版本发布过程中的幕后故事,揭秘了 2.0 版本的功能特性,以及社区未来的发版计划。
Apache Doris 2.0 Alpha 版本介绍
下载地址: https://github.com/apache/doris/releases/tag/2.0.0-alpha1
特性揭秘:
本次活动以“对话”形式展开,全程亮点频现,吸引了线上上千位位小伙伴观看互动。
精彩内容回顾
1. 版本发布回顾
“看到社区之前在 GitHub 上发布的 RoadMap,原本在 3 月就会发布 2.0 Alpha 版本,实际上在 5 月初才正式发出,能分享下这个版本发布过程中的幕后故事么?”
肖康:
“ Apache Doris 2.0 版本一直以来收到了很多社区用户们的关注和期待,作为社区研发团队的一员,我们也非常期待 2.0 版本的诞生。作为 2023 年发布的年度版本,2.0 无疑包含了许多社区用户期待已久的新功能,无论是高性能倒排索引、高并发点查询能力、还是 Pipeline执行引擎、多表物化视图、查询优化器,在功能场景的丰富度和性能表现上都有着巨大的飞跃,也正是因此我们才将其命名为 2.0 版本,而不是在 1.2 基础之上递增。如此多的新特性在研发过程中我们需要考虑的东西非常多,无论是性能表现、还是功能的可用性、系统整体的稳定性和可靠性等,我们希望给用户交付的是一个稳定可靠的版本。
因此虽说是 2.0 Alpha 版本,但其实我们依旧是按照正式版本的测试和发版流程进行发布的。由于整体 2.0 版本将会有较多重大的功能更新,为了确保 2.0 版本的可用性、稳定性和可靠性,我们在测试上花费了很长的一段时间。让各位社区的小伙伴们久等了。 ”
2. 未来发版计划
“ 看到社区在 1.1 和 1.2 这两个大版本采取了 LTS 版本的管理机制,而 2.0 Alpha 版本似乎与过去的版本管理机制有些差异,能详细介绍下社区对于发版上的计划么?”
鲁大师:
“ 社区发版计划如下:
周期性发版:保持每年 1 个一位版本、每季度 1 个二位版本、每月 1 个三位版本的迭代节奏,二位版本至少持续迭代半年以上;
功能规划:每年将对一位版本进行 1 次重大升级、二位版本间将会合入新功能特性、三位版本间仅修复 bug 和改进稳定性问题;
版本验证:2.0.x 会经历 Alpha、Beta 两个验证性版本才正式 GA。
版本发布计划(半年):
3. 2.0 Alpha 版本的重要特性介绍
“ 听说 Apache Doris 2.0 Alpha 版本的功能相比其他版本极具颠覆性,可以介绍一下 2.0 Alpha 版本的一些重要特性吗? ”
肖康:
“2.0 Alpha 版本有以下几个重要的功能特性:
半结构化数据存储与分析
高并发点查询
Nereids 全新查询优化器
Pipeline执行引擎
之前 Apache Doris 执行引擎基于传统的火山模型进行构建,在现代多核CPU上进行查询并发时存在一系列的问题。因此我们实现适应现代多核CPU的体系结构的 Pipeline 执行引擎相对于过去,Pipeline 执行引擎有以下优势:
阻塞算子异步化,不占有线程、无切换开销
自适应负载,不同负载下查询性能更稳定
线程资源使用更加可控
冷热数据分离
冷热数据策略:通过SQL设置冷热数据策略,将数据进一步区分为冷数据与热数据,冷数据自动转移到对象存储中,以降低存储成本。
冷数据缓存:用户无需关注数据位置,查询时会自动识别,如果数据不在本地则拉去对象存储数据并生成Cache,以提升冷数据的访问效率。
Compaction
- Vertical Compaction:将 Rowset 按照列切分为列组,按列合并数据,单次合并只需要加载部分列的数据,因此能够极大减少合并过程中的内存占用,提高压缩的执行速度。
- Segment Compaction:Segment compaction 允许在导入数据的同时进行数据的实时合并,以有效控制 Segment 文件的数量,增加系统所能承载的导入数据量,同时优化后续查询效率。”
“ 发布高并发点查询和倒排索引是为了取代 Elasticsearch 或 HBase 吗?”
肖康:
“ Apache Doris 在过去更多是服务于交互式 OLAP 分析。随着功能的不断完善,Doris 的定位正在不断在进行着更广泛的边界拓展。我们希望通过 Apache Doris 满足多个数据分析场景的需求,正如我们去年所发布的全新定位,极速易用实时统一的多模分析型数据库,不再让用户在多套系统之间权衡,仅通过一个系统解决绝大部分问题,降低复杂技术栈带来的开发、运维和使用成本,最大化提升生产力。
过去,大家习惯引入 Elasticsearch 进行日志场景分析、使用 Doris 进行 OLAP 分析,而现在随着高并发点查询和倒排索引功能的发布,Doris 已经具备了比较完善的日志数据分析和 Data Serving 能力,从而是可以在此类场景中取代 Elasticsearch/ HBase 的。”
“ 2.0 版本在 Alpha 版本之后,还会有哪些功能特性?”
肖康:
“ 如开头所说,整体 2.0 版本将会有较多重大的功能更新,这里仅简单预告一下,大家可以多多关注和期待:
多表物化视图与单表物化视图支持表达式
数据湖增强:支持insert、弹性计算节点、本地Cache、Ranger 权限管理
条件删除与部分列更新
CCR 跨集群数据同步
落盘:对大查询提供更好的支持”
4. 如何加入社区?
“ 如何加入社区?”
1)订阅开发者邮件组
- 订阅社区开发者邮件 dev@doris.apache.org 并参与社区的邮件讨论中
2)参与双周开发者会议(线上会议)
3)Doris Improvement Proposals(DSIP)
通过 DSIP 查阅社区核心功能设计方案及相关:
Doris Improvement Proposals - DORIS - Apache Software Foundation
“ 如何实现你的 First Contribution ? ”
1)文档完善
通过在 GitHub 中的 docs/ 中修改,并提交文档变更
通过 Pull Request 提交代码变更
2)Bug 问题修复
与 Doris 官方联系,同步和讨论你的修复方案(联系社区邮件组:dev@doris.apache.org)
3)新功能的开发
与 Doris 官方联系,同步和讨论你的修复方案
代码提交指南:代码提交指南 - Apache Doris
欢迎加入 Apache Doris 2.0 版本专项支持群
这里将有:
-
实时答疑: 针对您反馈的问题,将有 Apache Doris 开源工程师实时解答。
-
探讨交流: Get 2.0 真实试用经验,与 2.0 使用用户线上讨论交流。
反馈有礼: 我们真诚的希望能够收到大家对于 2.0 版本的真实反馈和建议。 为表达感谢,社区将为您送出 全套社区新款周边大礼包 1 份 !
活动资料
全程回放:
- 移动端:关注「SelectDB 视频号」查看活动回放
- PC 端:Apache Doris 2.0 Alpha 版本 Release Webinar_哔哩哔哩_bilibili
ppt 资料下载: