行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

Apache Doris在任子行的应用实践

信息技术 2025-01-14 孔繁艺任子行喜马拉雅

背景介绍

任子行网络技术股份有限公司是国内网络安全行业领军企业，业务涵盖网络安全、公共安全等多个领域。公司早期业务架构采用扁平化的ETL明细数据模式，存在数据分散、无法共享、离线分析难度大等问题。

架构演进

技术选型：对比Hadoop生态、Elasticsearch等技术，任子行选择Apache Doris作为数据平台，主要基于以下优势：
- 支持数据分层处理（明细、聚合、唯一键模型）
- 高吞吐写入能力（支持多种导入方式）
- 一站式分析能力（联邦查询、高并发查询）
- 出色的计算能力（多维分析、聚合查询）
- 高易用性（MySQL兼容SQL、简易架构）
数仓架构演进：构建了包含ODS、DWS、ADS三层的数仓架构，通过Open API实现数据采集、调度和即席查询，支持与Flink、MySQL、HBase等数据源交互。
存储规模：当前总数据规模达245TB，单日新增峰值1.5TB。

企业实践

数据建模：
- ODS层采用Duplicate Key模型存储原始数据
- DWS层根据数据特性选择Unique Key或Aggregate Key模型
- ADS层采用Duplicate Key模型供应用层使用
写入吞吐优化：通过调整分区策略（按处理时间分区），写入吞吐显著提升，compaction core维持在100+，CPU负载恢复正常。
数据更新问题：针对社交用户数据的多渠道、多字段差异问题，通过DWS层的数据去重与合并机制解决。
离线迁移：
- 使用DataX工具完成Elasticsearch（15亿账号数据）和HBase到Doris的迁移
- 支持Routine Load、Broker Load等多种导入方式

总结规划

降本增效：
- 存储成本降低61%-76%，社交帖文数据场景下降低76.7%
- 相同规模数据下，Doris存储成本仅为Elasticsearch的23.3%
高效导数：
- 导数流程从1天缩短至0.5天
- 支持实时查看明细数据、即席查询、自助BI和API开发
统一分析平台：
- 实现数据汇聚集中处理
- 支持SQL驱动的BI报表、数据大屏和自助API
高效计算：
- 社交关系计算时间从2小时缩短至10分钟
- 支持高并发点查场景
未来规划：
- 优化TEXT/JSON类型存储压缩
- 替换JSON函数查询
- 接入日志分析业务
- 引入VARIANT类型
- 迁移HBase点查业务

孔繁艺高级研发工程师分享嘉宾-任子行高级研发工程师背景介绍01架构演进02企业实践03总结规划04 目录 1-1公司介绍任子行网络技术股份有限公司成立于2000年5月，2012年4月，在深圳证券交易所创业板正式挂牌上市，是国内网络安全行业领军企业，致力于成为国内领先的“网络空间数据治理专家”。业务涵盖网络安全、公共安全、信息安全、运营商网络资源安全、终端安全、5G数据安全、工业互联网安全等众多领域，是国家重大活动网络安全服务支撑单位，也为“一带一路”海外友好国家政府提供网络安全解决方案。 1-2早期业务架构 1-3背景介绍离线分析难度大无法二次分析数据孤岛 2-1架构演进：技术选型思考 •存在写入瓶颈，吞吐能力达不到预期；•对服务器的CPU，内存及磁盘的要求都比较高；•倒排索引导致存储成本较高，达不到降本增效的效果；•聚合计算场景能力一般，会出现聚合不准确的情况；•分析需要具备DSL能力，复杂场景SQL模式支持有限； •传统数仓架构实时性得不到很好的保证。•架构复杂度比较高，数据链路长。•缺乏湖生态的技术储备，预研周期较长。 2-1架构演进：技术选型思考 2-1架构演进：技术选型思考 2-2架构演进：数仓架构 245TB1.5TB200+亿 3-1企业实践：数据建模 DWS汇总层 DWS层跟据具体的数据特性在AggredateKey模型和UniqueKey模型之间进行选择。简单的去重和更新使用UniqueKey模型，指标语句和复杂数据合并使用AggredateKey模型； ADS层作为对外直接使用的应用层数据，我们主要沿用DuplicateKey模型和UniqueKey模型。点查和实时更新使用UniqueKey模型，周期全量计算结果表使用DuplicateKey模型；每天有几千万上亿的半结构化数据需要摄入，Json深度及字段数量都不可控，因此ODS层我们选用了基础的DuplicateKey模型，快速稳定的完成原始数据存储； 3-2企业实践：写入吞吐问题 CREATETABLE`ods_xxx_post`(`post_id`VARCHAR(64)NOTNULLCOMMENT'帖子ID',`user_id`VARCHAR(64)NOTNULLCOMMENT'用户ID',`insert_date`DATENULLCOMMENT'入库日期',...,`create_date`DATENOTNULLCOMMENT'发布日期',`full_data`TEXTNULLCOMMENT'原始JSON',)DUPLICATEKEY(`post_id`,`user_id`,`insert_date`,`task_id`)PARTITIONBYRANGE(`insert_date`)DISTRIBUTEDBYHASH(`post_id`)BUCKETS16PROPERTIES("dynamic_partition.enable"="true","dynamic_partition.time_unit"="MONTH",...); CREATETABLE`ods_xxx_post`(`post_id`VARCHAR(64)NOTNULLCOMMENT'帖子ID',`user_id`VARCHAR(64)NOTNULLCOMMENT'用户ID',`create_date`DATENOTNULLCOMMENT'发布日期',...,`full_data`TEXTNULLCOMMENT'原始JSON',`insert_date`DATENULLCOMMENT'入库日期')DUPLICATEKEY(`post_id`,`user_id`,`create_date`,`task_id`)PARTITIONBYRANGE(`create_date`)DISTRIBUTEDBYHASH(`post_id`)BUCKETS16PROPERTIES("dynamic_partition.enable"="true","dynamic_partition.time_unit"="MONTH",...); 建表分区策略改为按照“处理时间”进行按月分区后，写入吞吐直线上升，compactioncore维持在100+左右，CPU负载水平也回落到正常负载，解决了写入吞吐低以及版本堆积导致的频繁写入失败问题。 3-3企业实践：数据更新问题社交用户数据场景中，数据渠道较多，每种渠道的字段内容的稳定性不一，没有明显特征。假设用户数据有A，B，C，D，E五个字段，其中A为主键，同一用户在部分渠道中只能获取A，B，C字段，另一渠道下却只能获取A，B，D，E字段，并且相同渠道也会有不确定因素存在，因此DWS层的用户数据去重与合并是一大重要挑战。 3-4企业实践：离线迁移 HBasetoDoris 15亿的账号数据，128个分区，8个分区作为一批，DataX串行化执行，同步至Doris总耗时为6小时； ElasticsearchtoDoris 遇到数据类型的字段需要提前在Elasticsearch索引映射的_meta部分添加特定的Doris结构注释，使用REFRESH命令手动刷新元数据； 4-1总结规划：降本增效经过多种类型数据的对比，存储成本能节省61%-76%之间。特别社交帖文数据场景下，Elasticsearch需要使用5.98TB磁盘内存，而在ApacheDoris只需要1.393TB，在保持高吞吐和实时性能的前提下，同等规模的数据，存储成本大幅度降低。 4-2总结规划：高效导数 4-3总结规划：统一分析平台即席查询自助BI 自助API 能够在数十亿级表中实时查看数据明细，通过关键词、时间、实体等纬度进行筛选。只需要基于SQL定义输入输出，在线API测试这2步即可生成API。基于SQL轻松完成BI报表、数据大屏的开发与输出。 4-4总结规划：高效计算 4-5总结规划：未来规划接入日志分析业务 •节省日志数据的存储空间，支持更长的数据保存周期。•缓解数据高峰时期带来的数据写入瓶颈问题。•更加准确的分析结果。 •解决TEXT以及JSON类型在存储压缩水平上的不足。•替换使用JSON函数查询和解析数据的场景，提高半结构列的查询性能。 •迁移HBase点查业务，高并发点查场景统一由ApacheDoris支撑。 ThanksforWatching！

点击免费查看完整报告