介绍Bloom Filter可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,主要缺点是存在一定的误判率:当其判断元素存在时,实际上元素可能并...
1. 什么是Hudi?Apache Hudi代表Hadoop Upserts anD Incrementals,管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少...
2020年6月4日,马萨诸塞州韦克菲尔德(Wakefield, MA)—— Apache 软件基金会(ASF),超过350个开源项目和计划的全志愿者开发人员、管理人员和孵化器,正式...
前不久举办的 Kylin 五周年庆典中,热度最高的非这场“圆桌会谈”莫属。来自 Spark,Hudi,Clickhouse 以及 Kylin 等开源社区的大佬,来了一场跨越时差,跨...
爱好云原生
本文已在Apache Hudi中文公众号发布 原文链接可变数据的处理一直以来都是大数据系统,尤其是实时系统的一大难点。在调研多种方案后,我们选择了 CDC to Hudi 的数据...
会写前端的后端工程师
由StreamNative Founder & CEO 郭斯杰 执笔的Apache Pulsar作为Lakehouse的提案,阐述如何利用Apache Hudi解决Pulsar作为...
Apache Pulsar社区负责人
Apache Hudi 是一种数据湖平台技术,它提供了构建和管理数据湖所需的几个功能。hudi 提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。拥有大量的小文...
doityourself
▼ 关注「Flink 中文社区」,获取更多技术干货 ▼ 摘要:本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增量计算模型不断优化演进。用户可以通过...
▼ 关注「Flink 中文社区」,获取更多技术干货 ▼ 摘要:本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi 的数据湖技术方案,以及针对其做出的优化。主要内容为...
在《如何利用 Flink CDC 实现数据增量备份到 Clickhouse》里,我们介绍了如何cdc到ch,今天我们已久使用前文的案例,来sink到hudi,那么我们开始吧。 hu...
二手数据科学家,现役于国产数据库厂商GBase
1. 测试过程环境版本说明Flink1.13.1Scala2.11CDH6.2.0Hadoop3.0.0Hive2.1.1Hudi0.10(master)PrestoDB0.25...
一个默默无闻的大数据搬砖工
一篇关于字节跳动基于 Apache Hudi 的实时数据湖平台的分享。本篇内容包含四个部分,首先介绍一下 Hudi,其次介绍字节的实时数据湖平台的应用场景;然后针对应用场景,字节做...
刚刚
going