Uber 工程师对公司数据湖摄入平台的架构进行了 重构 ,从计划批处理作业转向了一个流式优先系统。
该平台名为 IngestionNext,可以持续处理事件流,将摄入延迟从小时级降低到分钟级,加快了分析和机器学习工作负载所需数据的准备速度。
此前,摄入管道依赖于 Apache Spark,并以计划批处理作业的形式运行。
虽然能够进行大规模处理,但批处理管道延长了数据分析和实验用数据的就绪时间。
在 LinkedIn 上, Kai Waehner (Global Field CTO)在一篇 博文 中提到: 这一举措的核心在于将数据新鲜度视为数据质量的关键维度。
新鲜度和完整性会进行端到端的测量。
来源:InfoQ中文










