观澜Media

AI技术 · 深度资讯 · 前沿观察

,

Uber 推出流式优先数据湖 IngestionNext ,将延迟和计算量降低 25%

Uber 工程师对公司数据湖摄入平台的架构进行了 ..

Uber 工程师对公司数据湖摄入平台的架构进行了 重构 ,从计划批处理作业转向了一个流式优先系统。

该平台名为 IngestionNext,可以持续处理事件流,将摄入延迟从小时级降低到分钟级,加快了分析和机器学习工作负载所需数据的准备速度。

此前,摄入管道依赖于 Apache Spark,并以计划批处理作业的形式运行。

虽然能够进行大规模处理,但批处理管道延长了数据分析和实验用数据的就绪时间。

在 LinkedIn 上, Kai Waehner (Global Field CTO)在一篇 博文 中提到: 这一举措的核心在于将数据新鲜度视为数据质量的关键维度。

新鲜度和完整性会进行端到端的测量。

来源:InfoQ中文

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注