Categories
程式開發

腾讯云 Serverless 衔接 Kafka 上下游数据流转实战


01 Tencent Cloud Kafka 介绍

Tencent Cloud Kafka 是基于开源 Kafka 引擎研发的适合大规模公有云部署的 Cloud Kafka。是一款适合公有云部署,运行,运维的分布式的、高可靠、高吞吐和高可扩展的消息队列系统。它 100% 兼容开源的 Kafka API,目前主要支持开源的 0.9, 0.10, 1.1.1, 2.4.2 四个大版本,并提供向下兼容的能力。

目前 Tencent Cloud Kafka 维护了近万节点的集群,堆积数据达到了 PB 级。是一款集成了租户隔离、限流、鉴权、安全、数据监控告警、故障快速切换、跨可用区容灾等等一系列特性的,历经大流量检验的、可靠的公有云上 Kafka 集群。

02 什么是数据流转

CKafka 作为一款高吞吐,高可靠的消息队列引擎。需要承接大量数据的流入和流出,数据流动的这一过程我们称之它为数据流转。而在处理数据的流入和流出过程中,会有很多成熟丰富的开源的解决方案,如 Logstash,Spark,Fllink 等。从简单的数据转储,到复杂的数据清洗,过滤,聚合等,都有现成的解决方案。

如图所示,在 Kafka 上下游生态图中,CKafka 处于中间层,起到数据聚合,流量削峰,消息管道的作用。图左和图上是数据写入的组件概览,图右和图下是下游流式数据处理方案和持久化存储引擎。这些构成了 Kafka 周边的数据流动的生态。

原文链接:【https://www.infoq.cn/article/aBCkVKflitH90aC1KNP3】。未经作者许可,禁止转载。