Categories
程式開發

微博基于Flink的机器学习实践


导读: 微博作为国内比较主流的社交媒体平台,目前拥有2.22亿日活用户和5.16亿月活用户。如何为用户实时推荐优质内容,背后离不开微博的大规模机器学习平台。本文由微博机器学习研发中心高级算法工程师于茜老师分享,主要内容包含以下四部分:

  • 关于微博
  • 微博机器学习平台 ( WML ) 总览
  • Flink在WML中的应用
  • 使用Flink的下一步计划

01 关于微博

微博基于Flink的机器学习实践 1

微博2008年上线,是目前国内比较主流的社交媒体平台,拥有2.22亿日活用户和5.16亿月活用户,为用户提供在线创作、分享和发现优质内容的服务;目前微博的大规模机器学习平台可以支持千亿参数和百万QPS。

02 微博机器学习平台 ( WML ) 总览

接下来介绍一下微博机器学习平台,即WML的总览;机器学习平台 ( WML ) 为CTR、多媒体等各类机器学习和深度学习算法提供从样本处理、模型训练、服务部署到模型预估的一站式服务。

1. 总览

微博基于Flink的机器学习实践 2

上方是WML的一个整体架构图,共分为六层,从下至上依次介绍:

  • 集群层:包含离线计算集群、在线计算集群和高性能计算集群;
  • 调度层:包含自研的WeiBox ( 提供使用通用的接口将任务提交到不同集群的能力 )、Weiflow ( 提供将任务间的依赖关系处理好、组成DAG工作流的能力 ),以及常见的调度引擎Yarn和K8s;
  • 计算平台层:包含自研的WeiLearn ( 提供给用户在该平台做业务开发的能力 ),以及Hadoop/Spark离线计算平台、Flink/Storm在线计算平台和Tensorflow机器学习平台;
  • 模型训练层:目前支持LR、GBDT、FM/FFM、CF/MF、DNN/RNN等主流的算法;
  • 在线推理层:包含自研的WeiServing和WeiPS;
  • 业务应用层:主要应用场景是特征生成、样本服务、在线训练和在线推理;
  • 右边是自定义的一些概念,样本库、模型库、服务库以及两个任务提交方式WeiClient ( CLI方式提交 )、WAIC UI ( 界面操作 )。

原文链接:【https://www.infoq.cn/article/vc71sSa0Ug439BXm2kNO】。未经作者许可,禁止转载。