实时流平台搭建背景 /b >
在当今信息飞速传播的时代,微博热词的产生需要短时间内完成数据处理。随着实时流计算使用频繁、业务场景增多和监控需求提升,搭建实时流计算平台变得十分必要。WAIC 实时流计算平台应运而生,为新浪微博提供毫秒级和秒级实时数据处理服务。
搭建这个平台能提高新浪微博实时作业开发效率,降低部门开发与运营成本,对微博数据处理至关重要。
第一阶段数据接入处理 /b >
在开始搭建时,先通过 Scribe 或其他数据同步服务把数据接入实时队列。之后,在不同业务场景下,利用不同的实时集群进行处理。
这个阶段为后续的处理奠定了基础,将各种数据有序地引入系统,让后续环节能够顺利展开对数据的加工和分析。
第二阶段统一计算监控 /b >
进入第二阶段后,利用实时流统一计算与监控平台展示和配置作业情况。不过,WeiPig 的插件开发存在问题,主要由平台方几名开发人员实现,插件数量少,他们的工作量达到 80%。
此阶段虽构建了统一平台,但插件开发的困难限制了部分功能的拓展,还需进一步优化开发方式。
第三阶段提升宏观目标 /b >
第三阶段提高了宏观目标。前期作业提交时,很多开发人员自行配置本地环境提交到集群,导致平台方难以管控集群。为此,平台架构进行了相应调整。
为实现目标并解决管控问题,平台需要进一步完善架构,加强对集群资源使用的管理,确保资源合理分配。
资源管控及核心目标 /b >
为管控业务组在集群上占用的资源量,在“资源决策服务”里调用作业识别模块。核心目标是通过 WeiPig 开发框架,鼓励各业务团队贡献插件。
衡量贡献由 WeiPig 里贡献的 Function 数量和业务方使用情况决定。这样可增加插件种类,提高平台通用性。
稳定性服务及现状 /b >
实时流计算平台的实时对账系统满足 6 个 9 的数据成功率需求,还将数据处理标志存到存储服务上。如今人工工作量减少,主要集中在编写 WeiPig 配置文件。
在实时流开发中,边搭建业务平台边解决问题,确保系统持续稳定服务。现在平台稳定性提升,能更好地服务微博等场景。
你觉得在其他社交平台是否也能借鉴微博实时流计算平台的搭建经验?欢迎点赞、分享本文并留言讨论。