当前位置:首页 > 编程笔记 > 正文
已解决

新一代数据质量平台datavines

来自网友在路上 164864提问 提问时间:2023-11-03 18:29:31阅读次数: 64

最佳答案 问答题库648位专家为你答疑解惑

在我实习的第一家公司的时候,有幸参与Apache Griffin的开发,也先后在一起其他公司使用过数据质量平台,同时也调研过一些开源的数据质量平台。

最近和朋友一起参与开发了datavines数据质量平台,随着在数据行业越呆越久,我想再聊一聊数据质量,以及 我眼中的开源项目 datavines。

Griffin

优点:开源早,有一些成熟的公司借鉴和使用,核心领域主要在数据质量监控

缺点:部署依赖非常多,ElasticSearch、Hadoop、Livy、Spark等,离线处理主要依赖spark、实时处理主要以将流转成微批,采用Spark Streaming为主,技术栈 java、scala 前端 angular。横向可扩展功能较差、作业容错处理较差。

datavines

优点:核心功能包括:数据质量监控、数据探查、数据对比,功能明细优于 Griffin;部署依赖非常简单,只需要依赖 Mysql 就可以完成任务的调度。支持数据源丰富,横向扩展能力强、支持作业容错处理。

缺点:开源较迟,具有前景
 

Qualitis

优点:微众开源的数据质量平台(因为调研使用不多,所以不展开描述)

缺点:底层执行引擎依赖Linkis

查看全文

99%的人还看了

猜你感兴趣

版权申明

本文"新一代数据质量平台datavines":http://eshow365.cn/6-31303-0.html 内容来自互联网,请自行判断内容的正确性。如有侵权请联系我们,立即删除!