Categories
程式開發

PyFlink核心功能与应用全解


本文由 Apache Flink PMC、阿里巴巴技术专家程鹤群分享,主要介绍 PyFlink 的核心功能及应用,分为以下三部分:

  1. PyFlink 的发展史。
  2. PyFlink 的核心功能及原理。
  3. PyFlink Demo 演示。

更多内容,查看 Apache Flink运维和实战系列文章。

1.PyFlink 的发展史

PyFlink核心功能与应用全解 1

1.1、v1.8.x

  1. Flink 在 1.8 版本的时候就已经提供 Python API,只在 Datase/Stream 上提供支持。
  2. 存在一些问题,比如:
  • Table API 不支持 Python。
  • 两套各自独立实现的一个 Python API。
  • 底层实现是 JPython,JPython 无法支持 Python3.x。

1.2、v1.9.x

  1. 2019 年 8 月发布。
  2. 支持 Python Table API。

1.3、v1.10.x

  1. 2020 年 2 月发布。
  2. 提供了 Python UDF 的支持。
  3. 提供 UDF 的依赖管理。

1.4、未来发展

  1. 提供 Pandas UDF 的支持。
  2. 提供用户自定义的一些 UDF Metrics。
  3. ML API。
  4. 在易用性方面,提供 SQL DDL 支持 Python UDF。
  5. 在后面的一些版本中,我们也希望越来越多的人能够参与到 PyFlink 的贡献和开发中去。

2.PyFlink 核心功能及原理介绍

原文链接:【https://www.infoq.cn/article/ybP6zTBbyXuV3NOvtZyX】。未经作者许可,禁止转载。