小红书大数据团队在发展过程中不断探索改进,逐步引入多种OLAP分析引擎意义非凡。这是要应对复杂多变的业务场景和数据需求,其举措充满了创新与挑战的意味。
数据服务平台构建
在早期,小红书通过引入DorisDB构建全新统一数据服务平台。这一举措带来的好处是降低了数据链路开发复杂性。在某一阶段,数据链路开发成本过高,人力物力耗费巨大。而新平台建设后,开发复杂度显著降低。另外提升了高并发极速查询能力,当有大量用户同时查询数据时,查询效率大幅提升。
新平台还起到了整合数据相关工作的作用,以前分散的查询和处理变得集中高效。
Redshift的局限
Redshift是曾经考虑过的方案。但它有着诸多限制,像无法在不影响线上查询性能的前提下弹性扩展。比如曾经打算对其扩容时,就发现一旦扩容就会涉及到数据重分布。这必然影响集群的性能以及可用性,使得数据服务出现卡顿,给整个运营团队带来了困扰,甚至影响到部分产品的正常运营环节。
ClickHouse的引入
面对Redshift的局限性,小红书引入了ClickHouse。其目标是构建性能更强悍,响应时间更短的数据分析平台以满足实时性要求。在实时数据需求大增的业务场景下,例如涉及到热门话题的实时流量监控,ClickHouse发挥了极大作用。它大大缩短了数据处理的响应时间,让运营人员能几乎实时地掌握热门话题走向等关键数据。
实时数仓体系搭建
第四阶段的成果显著。小红书大数据团队进行了实时数仓的整体设计和搭建,还构建了数据服务平台,外接多个应用系统。这是为了统一对各业务团队提供数据接口。在业务团队提出各类数据需求时,可以更快速准确地响应。诸如数据挖掘部门,需要大量不同来源的数据进行挖掘分析,新的数据服务平台可以很好地对接满足需求。
离线数据处理与应用侧
离线数据处理利用Hive/Spark的优势承担离线数仓的工作。它们的高可扩展批处理能力为离线数据处理提供坚实基础。在有海量数据离线处理的任务时,例如历史数据整理,能高效完成。而在应用侧,DorisDB和ClickHouse承担多方重任。报表平台、即席分析平台的数据需求都能满足,而且还给开发侧提供数据接口,助力流量分析平台等数据产品。
广告业务的数据服务
在广告业务方面,DorisDB作用巨大。其本身高效的查询能力,高QPS特性,为广告业务提供一体化服务。广告算法策略、计费、实时报告等环节都能受益。举例来说,广告业务旺季时,大量广告数据的查询处理,DorisDB确保了快速响应。再者,广告侧后端的MySQL更新,可以通过DorisDB方便接入并实时更新表。同时也优化了查询功能减少数据范围提高并发能力等。
数据处理一直在发展进化,小红书大数据团队的这些举措适应了不断增长的数据需求。你觉得小红书在未来还会在数据处理方面有哪些创新探索?希望大家点赞分享,在评论区一起探讨!