在当今数据爆炸的时代,如何高效处理和分析数据是众多企业面临的挑战。小红书大数据团队通过引入多种 OLAP 分析引擎及自建引擎,找到了行之有效的解决方案。
引入多元分析引擎
小红书大数据团队为满足不断增长的数据需求,逐步引入各种 OLAP 分析引擎,像 ClickHouse、Starrocks 等。ClickHouse 能满足实时性要求,建设性能强悍、响应时间短的数据分析平台。2023 年初引入后,显著提升了数据查询响应速度,原本需几十秒的查询,缩短到了几秒。同时,还自建引擎,以更好地贴合自身业务特点。
实时数据服务核心方案
当下,Flink+Starrocks 和 Flink+Clickhouse(自建版)成为构建统一实时数据服务的核心技术。这一方案降低了数据链路开发复杂性,如以前开发一个完整的数据链路需数月时间,如今仅需几周。还提升了高并发极速查询能力,在促销期间,高并发查询也能快速响应。众多业务系统依靠此方案,稳定处理海量数据查询。
实时数仓与服务平台搭建
大数据团队进行了实时数仓的整体设计和搭建。在数据服务平台构建中,为统一对各业务团队提供数据接口,外接了多个内部或 To B 服务的应用系统。该平台建立后,业务部门获取数据的效率大幅提高,数据调用的准确性也大大增强,提高了业务决策的科学性。
离线数据处理工作
利用 Hive/Spark 高可扩展的批处理能力,承担所有离线数仓的 ETL 和数据模型加工工作。每天深夜,系统利用 Hive/Spark 处理海量离线数据,将数据进行清洗、转换和加载,为后续分析做准备。保证了数据的质量和一致性,为大数据分析提供了坚实基础。
OLAP 查询能力应用
借助 Starrocks 和 ClickHouse 提供的高速 OLAP 查询能力,在应用侧承接了报表平台,提供即席分析的平台等。在流量分析平台中,可快速分析用户流量来源、分布等信息。还实现了多个数据产品,如用户标签平台,能精准为用户打标签,助力精准营销。
Starrocks 的业务应用优势
基于 Starrocks 高效的查询能力和支持高 QPS 的特性,能为广告业务提供一体化服务。如广告实时计费,可及时准确计算广告费用。在数仓调度平台封装导数模版,通过界面化配置,方便将离线数仓表导入 Starrocks。其 MPP 查询架构,适合广告主业务查询场景,提高了广告业务数据分析效率。
实时体系构建完成后,实现了数据服务统一化。为广告投放平台聚光平台的重构和业务迭代等提供底层支撑。未来将用于提升更多业务场景的数据服务和查询能力。大家认为小红书大数据团队这些技术方案,还可能在哪些业务场景发挥更大作用?欢迎评论分享,觉得文章有用就点个赞!