Categories
程式開發

阿里巴巴伏羲调度系统在双11场景下面临的挑战以及技术如何实现

随着阿里经济体和阿里云业务需求(尤其是双十一)的不断丰富,伏羲的内涵也不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。

过去十年来,伏羲在技术能力上每年都有新的进展和突破,2013年5K,2015年Sortbenchmark世界冠军,2017年超大规模离在/在离线混部能力,2019年的 Yugong 发布并且论文被VLDB2019接受等。随着 Fuxi 2.0 首次亮相2019双11,今年飞天大数据平台在混部侧支持和基线保障2个方面均顺利完成了目标。其中,混部支持了双十一 …

Categories
程式開發

EB级计算平台调度系统伏羲 DAG 2.0解析

前言

作为阿里巴巴核心大数据底座,伏羲调度和分布式执行系统,支撑着阿里集团内部以及阿里云上大数据平台绝大部分的大数据计算需求,在其上运行的MaxCompute(ODPS) 以及PAI等多种计算引擎,每天为用户进行海量的数据运算。 在”阿里体量”的大数据生态中,伏羲系统管理着弹内外多个物理集群,超十万台物理机, 以及数百万的CPU/GPU cores。每天运行在伏羲分布式平台上的作业数已经超过千万, 是业界少有的,单天处理EB级别数据分布式平台。其中单个作业规模已经高达数十万计算节点,管理着数百亿的边连接。在过去的十年中,阿里集团以及阿里云上这样的作业数目和规模,锤炼了伏羲分布式平台;与此同时,今天平台上作业的日益多样化,以及向前再发展的需求,对于伏羲系统架构的进一步演化,也都带来了巨大挑战与机遇。本文主要介绍一下在过去的两年多时间中,阿里巴巴伏羲团队对于整个核心调度与分布式执行系统的升级换代,code name DAG 2.0。…

Categories
程式開發

Jenkins 插件开发之旅:两天内从 idea 到发布(下篇)

本文分上下两篇,上篇介绍了从产生 idea 到插件开发完成的过程; 下篇将介绍将插件托管到 Jenkins 插件更新中心的一系列过程。

托管插件

托管插件包括一系列流程步骤。 笔者完成了它所有步骤(包括非必须的步骤),其中主要有两个具有标志性的任务:

插件代码被托管在 …

Categories
程式開發

面向大数据与云计算的阿里经济体核心调度系统Fuxi 2.0全揭秘

伏羲(Fuxi)是十年前最初创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute,分布式调度 Fuxi),当时的设计初衷是为了解决大规模分布式资源的调度问题(本质上是多目标的最优匹配问题)。

随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度(即正文中的单机调度)等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。

过去十年来,伏羲在技术能力上每年都有一定的进展和突破(如2013年的5K,15年的Sortbenchmark世界冠军,17年的超大规模离在/在离混布能力,2019年的 Yugong

Categories
程式開發

爱奇艺深度语义表示学习的探索与实践

导读
基于学术界和工业界经验,爱奇艺设计和探索出了一套适用于多种业务场景的深度语义表示学习框架。 在推荐、搜索、直播等 多个业务中的召回、排序、去重、多样性、语义匹配、聚类等场景上线,提高视频推荐的丰富性和多样性,改善用户观看和搜索体验。
本文将介绍爱奇艺深度语义表示框架的核心设计思路和实践心得。

背景

英国语言学家 J.R.Firth在1957年曾说过:“You shall know …

Categories
程式開發

GPU在联邦机器学习中的探索

本文根据星云Clustar首席科学家胡水海在NVIDIA 2019年GTC大会上的讲演《GPU在联邦机器学习中的探索》整理而来,阐述了联邦学习密态计算和密文传输的问题,并就如何提高密态计算和密文传输的效率进行了相应的解析。

一、联邦学习背景

在人工智能领域,传统数据处理模式往往是一方收集数据,再转移到另一方进行处理、清洗并建模,最后把模型卖给第三方。但随着法规的完善和监控愈加严格,数据离开收集方或者用户不清楚模型的具体用途都可能会导致运营者触犯法律。为应对隐私泄漏风险,世界各国都采取了相应的措施。2018年欧盟出台了首个关于数据隐私保护的法案《通用数据保护条例》。国内从2009年开始,出台了一系列隐私保护法案,数据隐私的保护正逐步严格化和全面化。

一般来说,人工智能需要通过大量的数据学习才能把数据后面的知识和价值挖掘出来。但现实的情况是一方面很多数据质量不好,缺乏标签;另一方面,数据完全分散在各个数据主体,企业的个案里面,是一个个数据孤岛。但使用传统的方法粗暴地将数据聚合是法律法规所禁止的。如何打破数据孤岛,打通人工智能应用的最后一公里,促进人工智能落地呢?联邦学习给我们提供了解决方案。

1.1.联邦学习的核心原理

根据2020年4月最新发布的《联邦学习白皮书》,联邦学习的概念可以定义为:在进行机器学习的过程中,各参与方可以借助其他方数据进行联合建模。各方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。联邦学习可以分为三类:

1.横向联邦学习

在两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。

2.纵向联邦学习…

Categories
程式開發

小米产品背后的AI技术实践分享

2020年,小米发布了小米10、Redmi K30 Pro等系列产品,这些产品背后,AI技术又是如何为小米赋能的?

在小米近期发布的小米10青春版手机上,小米手机官方表示该产品支持电影相机、拥有AI魔法分身的功能。此前,在Redmi K30 Pro旗舰新品发布会上,Redmi小爱触屏音箱支持手势识别及童脸识别等功能,小米的自研技术不断赋能小米产品。本文就来探究近期小米发布的产品中,蕴藏了哪些AI技术。

AI魔法分身功能

AI魔法分身是小米10青春版的重磅产品,从字面意思就可以了解,AI魔法分身可以在拍摄中实现多个人物同时存在,无需三脚架即可实现,操作简单易学。

AI魔法分身功能是基于小米AI实验室的自研算法实现的,这一技术将AI视频目标检测算法、实时SLAM场景建模算法、AI视频实时人像分割算法三大算法结合在一起,针对两段手持拍摄视频,实时逐帧进行对齐拼接,据悉,这是业界首创的AI视频对齐技术。

小米产品背后的AI技术实践分享 77

小米AI实验室视觉团队认为,创作+AI是未来计算机视觉发展的重要趋势之一,通过将复杂的视频派件剪辑和创作过程引入创新的AI算法,实现一键的智能化操作。此前,Vlog的智能运镜技术和Mi剪辑中的智能模块匹配都是这一理念的延续。后续,视觉团队将开发更多引领潮流的AI视频创作工具,为视频创作者提供便捷的服务。…

Categories
程式開發

Jenkins 插件开发之旅:两天内从 idea 到发布(上篇)

本文介绍了笔者首个 Jenkins 插件开发的旅程, 包括从产生 idea 开始,然后经过插件定制开发, 接着申请将代码托管到 jenkinsci GitHub 组织, …

Categories
程式開發

【迁移】读完了GFS论文之后的感悟

首先,是一点关于设计分布式文件系统的思路和出发点,即要考虑自己应用的负载情况和技术环境的分析,综合考量之后才能更好的定义设计原型,体现更多的概念完整性和适用性。 

另外,设计一门新技术首先就是要观察现有的技术有哪些缺陷需要改进或重造,不然谁会乐意更换一套东西呢?何况是一位不知名的设计师或一个从没有见诸报端的设计团队创造的。 

通用的考虑既是性能、可伸缩性、可靠性以及可用性,而我更倾向于将可用性放在首位,这一点满足了之后我们再来谈SLA,为什么?因为可用性直接影响了客户与你的关系,也因此影响了你的公司或团队的直接收益。另一个词叫做用户体验,可用性和用户体验是息息相关的,如果你的系统都用不了了,谁来买账呢?更谈不上用户体验了。

 

组件失效是常态 

任何时间内都可能发生组件无法工作的情况,并且其中某些组件都无法从故障中恢复。 

大容量需求 

大容量需求导致了在设计文件系统时,你不能或者不应当采用管理数百亿个KB级大小的文件,而应当重新考虑I/O操作和Block的尺寸。 

AOF是个大秘密 

我们知道文件的写入一般采用的是追加的方式,而且一旦写入之后,读取一般都是顺序的。所以对于海量访问模式,应该考虑将追加操作的性能优化和原子性保证提到门面上来,此时的数据块缓存已经没有太大用处。 

黑科技 …

Categories
程式開發

Chrome 83 新增视觉缺陷仿真和本地化

即将发布的Chrome 83版本引入了对DevTools的重要更新,包括对视觉缺陷的仿真和用户本地化、跨域开放者策略(cross-origin opener policy,COOP)调试、跨域嵌入策略(cross-origin embedder policy,COEP)调试以及针对cookie路径的网络请求过滤。

由于新冠肺炎,Chrome团队取消了Chrome 82的发布,但他们比原计划提前三周公布了Chrome …