Categories
程式開發

图技术进入腾飞阶段,成功图分析的核心要素是什么?


图在近几年非常火,图计算也受到了普遍关注。除了深度学习自身限制和知识图谱受重视之外,还有诸如基于数据作出准确商业决策等促进因素。随着万物互联,数据爆发带来了图数据库的增长机会,企业对于数据价值的期望越来越高,这也催生了数据库的变革和创新。与此同时,图数据库具有更好、更快速的查询和分析,更简单、更自然的数据建模,支持实时更新查询,且数据结构灵活性等特点,这些使得图数据库迎来飞速发展的状态。

图技术进入腾飞阶段,成功图分析的核心要素是什么? 1

在上一篇《我不鼓励技术人单独创业》一文发布之后,很多同学留言深受启发,毕竟创业也是天时地利人和的较量。本文“技术篇”继续采访了浙江创邻科技创始人兼CEO张晨老师,就图数据库的发展,技术提升,开源根源等问题进行了详细的介绍,希望对您以及技术选型有帮助。

9月11日深圳ArchSummit全球架构师峰会上,您可以来听张晨老师分享《图数据库测试和选型的方法、标准、结果》话题,面对面交流,互通有无。

InfoQ:图在近几年非常火,图计算也受到普遍的关注。除了数据积累到了一定程度,深度学习自身限制,和知识图谱受重视之外,您认为,导致图计算受到关注的因素还有哪些呢?

张晨:催生图计算的,是新的数据组织形式,背后实际是新型商业逻辑和业务逻辑的兴起。数据只是客观世界的抽象,推动图计算成为不可逆的技术趋势的是日益关联密切的商业业态和互联网世代人们新的生活、工作、通讯、出行、娱乐、消费模式。

正是因为有了互联网这样海量相互链接的网页的兴起,Pagerank 这样的图算法才发挥出它的光彩。正是因为有了淘宝这样连接大量买家、卖家和商品的平台,才催生了商品知识图谱、用户画像的技术需求(兴趣图、交易图);正是有 Uber、滴滴这样的通过建立车主和出行者的网络提升整个社会出行效率的公司,才催生了对人、车、地点这样的实时、动态、移动的数据组成的网络进行高效计算、匹配的需求(移动图);正是因为有了社交营销这种个人利用自己在社交网络中的影响力为卖家、品牌商带来巨大流量和转化的商业模式,才催生了基于社交网络分析的MarTech 需求(社交图)。围绕着前述这些庞大网络体系构建的商业模式和逻辑会伴随产生大量密集关联的数据,而要基于这些数据做出迅速并准确的商业决策就需要有处理这些数据的能力。

从更大的层面来说,社会作为一个复杂系统,随着它的发展,其内部系统的复杂度必然会增加,比如,交通网络、物流网络、通讯网络必然越来越庞大密集,随之产生的人流、物流、资金流、信息流也会越来越庞大、复杂。这个过程中,会产生、积累的海量的图结构的(graph-structured)数据。理解、分析这些图数据的能力将成为企业未来最核心的竞争力,而理解分析图数据就需要运用图计算。就如阿里巴巴前总参谋长曾鸣教授提出的 “智能商业双螺旋”模型一样:未来有竞争力的企业都必然具备“网络协同”与“数据智能”的双螺旋DNA,二者相互影响、相互迭代、螺旋式上升。商业场景中多角色多场景的网络协同,必然产生反映这些网络协同的密集关联的图数据,从需求端牵引图计算技术的发展。

同时,随着社会及商业节奏的加快,大家对数据处理的速度和时效要求也越来越高,而传统数据库技术又无法满足复杂关联数据的实时查询、计算需求,自然而然的就会催生图数据库、图分析引擎这样专门为高效存储、查询、计算复杂关联数据而设计并优化的技术。

InfoQ:如果按照萌芽期、发展期、成熟期、泡沫期几个阶段来分的话,您认为图计算处于哪一阶段?您是怎么看待图计算当前的发展阶段?

张晨:把图数据库和图计算当成广义的图技术的话,图技术肯定是度过了萌芽期,进入了快速发展期,但尚未到达成熟期。

图技术进入腾飞阶段,成功图分析的核心要素是什么? 2

为什么说还没到成熟期呢?从需求端来说,市场上熟知图技术的企业还非常少,从整个数据库市场来看,只有不到2%的用户使用了图数据库,使用图计算的就更少了。目前市场的主要图数据库用户还是集中在全球五百强企业这样的大企业中,一方面是因为他们的数据体量和复杂度更高,所以对图技术的需求更早更强烈;另一方面,这些公司有足够的资源尝试新技术,是技术应用中的创新者。市场远没有到早期大众使用图数据库的阶段。从供给端来说,虽然市场上各种图数据库产品(开源和非开源的)不少,但是真正的原生图数据库产品并不多,大多是因为历史原因从老的技术方案上嫁接图处理能力的“折中方案”,成熟的商业化原生图数据库产品和图计算产品更是屈指可数。各个产品之间也各有优劣,完善的平台型产品尚未诞生。

另一方面,图技术在过去五年确实经历了飞速发展,到了爆发式增长的边缘。据全球知名的数据库流行度排行榜网站 DB-Engines 统计,图数据库是过去五年所有数据库类型中受欢迎程度增长最快的;数据库顶尖大会 VLDB 中图数据库的相关论文投稿数逐年上升,由此可见该技术已经逐渐进入了业界主流视野。Gartner 预计2022 年之前全球图处理及图数据库市场将以每年 100% 的速度迅猛增长,2020 年保守估计将达到 80 亿美元。近年一些国内外新兴的图数据库初创企业融资规模达到数千万美元级别。这些都是明确的信号,市场对图技术的认知程度和需求在上升。去年 Cypher 图查询语言已经正式进入 ISO 标准,行业标准的出现也是技术成熟化的一个标志。

作为技术提供商来说,现在肯定是最好的阶段。需求端市场已经被先行者初步教育,技术的商业化价值被逐步验证,需求在上升;从竞争市场来看,竞争对手相对较少或者说供给能力尚无法满足庞大的市场需求,在很多细分行业,市场尚处于蓝海。现在是做图技术及其上层应用最好的历史时机。

InfoQ:当前图数据库产品极大丰富,出现几家具有垄断性地位的玩家,性能和功能全面提升。您认为,是不是需要针对用户的不同需求,提供不同能力的数据产品?例如在查询上很强的功能,或者在图分析引擎上很强的产品?

张晨:垄断通常发生在技术进入大众市场,众多在高速发展期冒出来的供应商逐渐被市场淘汰,留下少数综合能力强悍的生存者的阶段。图技术目前尚未进入大众市场,所以,以现阶段市场的成熟度和技术普及程度而言,谈垄断尚早。

确实有性能和功能全面提升的图数据库产品面世,创邻的 Galaxybase 也是其中一款,但是最终市场会留下哪一家,我认为让子弹先飞一会儿——至少需要飞五年以上的时间。

技术的发展说到底是被需求推动的,我认为在图数据库进入大众市场之前,技术聚合会是趋势。因为对大部分用户而言,技术使用场景中单维度的极值需求相对较少,80%的用户需求以共性的20%的系统功能/性能就能完成,更重要的是系统端到端的的综合服务能力。

在最早的时候,图技术当中负责存储查询的数据库技术和复杂分析计算的图分析引擎其实是两个独立发展的技术线,是随着用户对一体化解决方案的需求的提升,开始逐步出现了技术融合的趋势。比如图数据库如果仅具备存储及查询能力,还需要依赖外部的 GraphX、Giraph 这样的图计算引擎才能完成算法分析,ETL 的成本就太高了。虽然看到不少数据库产品开始提供算法模块支持图计算,近年甚至出现了一体化图平台的产品形态,同时提供图查询、图计算、图可视化等能力。但当前,这样成熟的商业化图平台产品还非常少。创邻的 Galaxybase 也在往这个方向努力。

长远来说,随着市场技术成熟度提高、竞争逐渐激烈,肯定会需要产品差异化竞争来更好的服务细分市场,谁能更好的满足剩下20%的个性化需求谁就能更好的生存。那时候肯定会出现专门针对细分市场用户需求而优化的图技术产品,可能某些图平台会更往分析和推理端的能力做延展,有的图平台会更加往极限条件下极速的数据增删查改能力上做延展。当然,不排除现阶段有的图数据库创业公司直接从细分市场做起。不同的发展路线,都有成功的可能。

InfoQ:创邻科技有非常多的客户,那么从应用层面来看图数据库,目前它还存在哪些急需解决的问题?

张晨:图数据库从应用层面来看要发挥它的价值,确实还存在一些急需解决的问题:

第一个问题就是数据问题,图技术的价值在于它能联通多源数据的能力。而一个数据集当中能够挖掘的价值取决于这个数据集中孤立数据点之间能够建立的链接的密度。要让数据链接,首先要能打破现有企业内部部门间以及企业和企业间的数据壁垒。这个在很多行业和场景下,还很难做到。比如金融里面团伙欺诈、骗保骗贷、洗钱等等,其实线索都在分散的各个金融体系里面,拥有了图技术,把这些分散的信号连接起来构建全局认知,挖掘诈骗团伙并不难,但现实情况往往是因为政策、合规、历史遗留等各种原因企业内部和企业间的数据很难被打通,这限制了图技术能发挥的价值。

第二个问题是,目前市场尚在起步阶段,用户教育还不够,很多用户有想法要打通数据孤岛、做数据连接,但往往无法提出明确的需求,导致图技术商业落地比较慢。只有客户能够明确的知道自己想要解决什么具体的业务问题,并依此梳理业务数据,将业务问题映射成图模型,图数据库技术才能发挥他的用武之地。

第三个问题,市场上同时具备图数据库处理能力和业务理解能力的复合型人才的缺口很大。目前国内大部分客户想要的还是端到端的解决方案,这个单靠图数据库公司很难完成。用户最终能理解、能直观感受到价值的还是基于图数据库的行业解决方案。比如前两年知识图谱火起来了,这两年我们就开始逐渐感受到来自知识图谱服务商对图数据库的需求,他们之前使用 Neo4j,随着图谱的增大,开始感受到性能的瓶颈,需要更好的技术解决方案。其实还有更多的领域需要这样的“中间人”,因为图数据库的应用场景实在太多了,很希望更多的人才一起来“大展宏图”。

InfoQ:图计算的核心在于做好图分析,那么如何做好图分析?基于您的经验,有哪些关键点?

张晨:要做好图分析主要有两个方面的要素:商业和技术。

商业上,要定义清楚图分析要解决的具体问题,并围绕这个目的组织好人力、硬件以及数据资源。图分析的最终目的是为了通过数据洞察创造商业价值,这一过程涉及到业务理解、需求抽象、数据的迁移与融合、图模型设计与迭代、图算法实现与迭代,以及最终对分析结果的理解与应用,绝不是单纯的技术问题,需要技术与业务人员的通力合作。如果商业目标不明确或者目标本身是错误的,那么再好的技术也很难发挥价值。如果目标定义清晰了,技术与业务人员之间的沟通不畅,相互不能理解对方在说什么,那么也很难将需求正确的抽象成数据模型,并实施合适的算法。即使正确的将需求抽象成了合适的图模型和算法,如果企业内外部的组织壁垒不能打通,必要的数据没法灌入模型中,那么图结构无法完整,最后的分析结果也很难准确。

所以说:明确的商业目标,业务与技术的跨部门协作,以及数据壁垒的打通,是做好图分析必不可少的关键要素。

技术上,关键是要依据需要解决的商业问题做好技术选型。这里涉及很多因素,比如:这个图分析的实效要求高吗?数据规模是多大?是查询任务多还是计算任务多?是否涉及全图算法?并发性要求如何?计算结果需要持久化或反复更新/多次调用吗?有数据交互需求吗?数据增量的规模和需求是什么?图分析的执行者是谁?服务对象是谁?工欲善其事,必先利其器,选择合适的技术方案,图分析的任务就成功了一半,反之则可能事倍功半。

  • 如果是查询任务多、时效性要求又高,那么图数据库是合适的选择;
  • 如果是涉及全图计算的计算任务多、而时效性要求不高,那么图计算引擎是合适的选择;
  • 如果对分析结果要求持久化或者反复迭代,那么技术架构中至少应该包含图数据库的部分,可以是“存储+计算“的混合架构;
  • 选择了合适的技术架构以后,还要考虑具体技术产品的读写性能、高并发性能、数据导入/导出性能等各方面性能是否满足场景需求;
  • 如果数据及数据增量都很大,还要考虑技术方案是否是分布式架构的,以及数据压缩情况如何;
  • 如果图分析的服务对象是其他业务系统,那么图分析产品的可封装服务能力就很重要;
  • 最后,如果图分析的执行者不是程序员而是业务员,那么技术栈中是否存在易用的可视化分析工具、是否有开箱即用的算法库等性能之外的辅助功能因素就很重要。

InfoQ:目前国内外都有公司在研发图数据库,那么如何打出差异化?您有没有特别的观点?

张晨:图数据库产品目前分几类,一类是像 Neo4j 这样的原生图数据库,它的优点是深链查询性能好,但扩展性不够,也无法高效做离线分析;另一类,是像 JanusGraph这样其他存储类型上做了图查询层的图数据库,因为他们大多基于扩展性良好的 NoSQL store,扩展性上有很大提升,但在图查询性能和深度上却远不及原生图数据库。还有一类是传统 RDF store,它们问题是无法很好的支持复杂属性图模型,同时查询性能会随数据增加而降低。

创邻的 Galaxybase 是一款原生的分布式并行图数据库。这意味着其兼具原生图数据库的深链关联查询性能和分布式图数据库的数据延展性。实际上,在大数据量下,Galaxybase 的深链(>3度)查询性能比 Neo4j 这样的一代原生图数据库有一至两个数量级的性能优势。同时,Galaxybase 还支持大多数非原生图平台不支持的实时图分析,这意味着对数据库更新可以与数据库上的其他查询、计算同时进行,并能快速完成。以金融领域为例,Galaxybase 支持把不同来源的数据实时插入图数据库组网,实时计算多度关联风险,毫秒级完成欺诈甄别,实现信用卡秒批及支付前欺诈拦截。

在产品层面,Galaxybase 非常注重易用性。图数据库技术要跳跃早期使用者和大众市场之间的鸿沟,在图数据库人才大量缺乏的情况下,易用性是一个关键要素。所以 Galaxybase 做为一款数据库产品却集成了非常强大的可视化工具,完全不懂图技术的人员也能轻易的在可视化视窗通过拖拽完成从数据清洗、数据迁移、模型构建、数据导入、数据查询、执行算法到可视化交互分析的全链条数据处理任务,极大降低了系统使用门槛,让用户可以专注在自身业务逻辑而非技术实现上。客户甚至可以直接把 Galaxybase 的可视化界面集成到他们的数据服务平台提供对外服务。

相比开源产品,Galaxybase 做了很多系统的安全性和健壮性的工作,比如支持高可用、冷备、热备,比如完善的管理员体系和用户权限系统。管理员可以在可视化运维管理界面监控机器占用资源的情况、查看详尽的日志、以及管理用户权限。我们拥有完备的数据库及数据权限系统,还同时支持用户自定义角色及其权限,服务用户定制化的权限管理需求。如果系统宕机或使用中出错,Galaxybase 也能在后台清楚地收集信息反馈给管理员,而无需终端用户重新收集。

作为一款全自主研发的国产图数据库,Galaxybase还有国际同类产品不具备的对国产芯片及硬件的支持。Galaxybase 同时支持飞腾、鲲鹏、申威、兆芯等国产 CPU 和中标麒麟、银河麒麟等国产操作系统。

最后,Galaxybase 也看到了图数据库与云计算结合的趋势。今年,创邻将发布 Galaxybase Cloud,让数据已经在云上的客户可以直接在云上使用创邻的高扩展、高性能、极易用的图数据库产品,未来也将允许现有私有化部署的客户一键上云。云计算以及 pay per use 的收费模式,将为更多想利用图技术实现可解释的AI的中小客户提供便利、可负担的解决方案。

InfoQ:Neo4j 的发展是赶上了开源软件的黄金期;Tigergraph 后来也选择开源其 TigerGraph GSQL 图数据库算法库。这些都是商业模式触发的动作,那么创邻科技在开源上,有哪些措施呢?

张晨:TigerGraph 选择开源 GSQL 的算法库,背后的商业逻辑在于对于广大被 Neo4j、JaunusGraph 等开源软件教育起来的图数据库用户群体来说,TigerGraph 开发的 GSQL 还是一个相当小众图查询语言,学习成本和应用壁垒很高,将基于 GSQL 实现的算法开源可以一定程度降低用户的应用壁垒,从而促进用户使用 TigerGraph 的意愿。

开源与否,是一个复杂的商业决定,不是为了开源而开源。在产品开发初期,开源确实可以争夺优质的开发资源,帮助尽快完善产品。但是对于已经具备市场相对竞争力的成熟的商业化产品来说,开源带来的开发者优势就不存在了,反而会给竞争者提供便利,这也是为什么 Neo4j 选择闭源他的企业版本,而 TigerGraph 仅仅开源了应用级别的算法、并未开源数据库的原因。

从商业的本质来说,开源的动机最终还是通过降低边际成本够低的部分产品(软件),吸引用户购买与其互补的产品(服务),最终通过互补品实现收益最大化。这里就要提到国内外的差异了,国外估值高的几家开源企业都是开源技术产品、再通过云托管的方式盈利。而国内,拥有大量关联数据的公司分成两类:一类企业是互联网企业,他们通常具备相当的开发实力,要么自己开发针对自己特定业务场景需求的基础技术,要么拿开源的基础技术产品过来改改自己做 add-on,开源模式从这类企业手里赚钱非常难;另一类是相对传统的大企业,比如银行、电信、能源、公安、政府部门,因为政策监管和各种原因,大都不能或不愿意将数据放到共有云上,基本都是私有云部署。那么开源软件 + 云托管的盈利模式对他们也行不通。所以,个人认为在图数据库这种 ToB 的底层技术领域,开源这种商业模式在国内变现会比较艰难。

放眼国际,遍观美国成功的开源项目,都有一个共同点:就是单一的商业化公司去主导一个开源项目的发展。而实际上一旦一个开源项目的成熟社区成形了,相应网络效应也将随之形成,同一个技术类型下,很难再出第二个社区。这就像有了微信,在熟人社交通讯这里个领域,今天面对同样的客群很难再出第二个同样成功的产品是一样的道理。

图数据库技术发展到今天,Neo4j、JanusGraph 等老牌图数据库厂商都已形成非常成熟且完善的社区生态,在单机及分布式图数据库领域各有山头。所以,创邻从一开始就选择了跟现有开源生态兼容的战略路线。Galaxybase 完全兼容 Neo4j,支持 Cypher、Gremlin 和 SPARQL 查询语言及编程接口,提供 Neo4j 和 JanusGraph 的 converter 帮助用户直接将已经在这些系统中构建的线上图谱导入 Galaxybase 的系统开始使用,让他们可以轻松的从现有的开源生态无缝迁移过来。当用户使用了像 Neo4j、JanusGraph 这样的产品,感觉到性能瓶颈以及缺乏专业化技术服务与支持的痛点的时候,就非常适合来找创邻科技。从这个角度来说,现有开源生态里的产品也在为创邻产品引流。

InfoQ:图计算方兴未艾,但还有尚未攻破的难点,比如超级顶点问题、OLTP 和 OLAP 融合问题、图划分、流式图数据处理等。您认为这难点会在什么条件下解决?您预测未来图数据库的发展会走向什么方向?

张晨:这里提到的难点,图分割、动态均衡、超级点等问题都可以被优化,既可以从算法上,也可以从工程上入手。创邻在这些方面也做了不少的研究,并取得了不错的成果。比如,Galaxybase 支持自适应图分割算法,解决了在静态和动态条件下自动将大图分割成多张子图均衡的存在分布式数据存储节点的问题。图的切分不仅仅关系到数据去中心化的合理分布,也影响着查询和计算的效率。在碰到超级节点的时候,Galaxybase 使用的混合优化分割办法,会自动计算并动态平衡数据,让超级节点与其一度邻居尽可能存储在同一物理节点,降低计算与查询时建立网络连接和数据传输的成本,使得超级节点不再成为查询和计算的致命瓶颈。

OLTP 和 OLAP 的融合不是一个单纯的技术问题。OLTP 强调的是实时性、数据一致性和高并发处理能力;OLAP 没有很强的实时要求,强调的是计算的效率。图数据库一般用来支持 OLTP,图计算引擎一般用来支持 OLAP。它们分别为底层的数据任务做了不同的调度和优化,这些设计和优化的决策很多情况下“鱼与熊掌”很难兼得。未来随着算法研究的深入,尤其是以“节点-边”这种原生图为基础数据存储表达形式、以分布式并行处理为计算任务执行方式的图算法重构和优化的推进,越来越多的算法将可以被 OLTP 图数据库所支持,OLTP 和 OLAP 将有机会进一步融合。

未来图数据库的发展,不论是底层技术还是上层应用上,都有很多种可能。我的判断是,从技术上,图数据库的发展会有两个趋势,一个是前面提到的 OLTP 和 OLAP 的进一步融合,另一个是将出现具备时序数据处理能力的图数据库。5G以及 IoT 的兴起催生了大量的时序数据,这些数据蕴藏着丰富的人、设备、车辆等的流动变化的关联数据。要基于这些流动变化的关联数据作出实时精准的商业决策,就需要底层的数据存储与计算能力的支撑。所以,未来会需要图数据库能够更好的支持空间、时间维度的数据查询和处理。

从应用上,我认为图数据库会成为未来人类智慧的“新基建”。前人的研究表明,网络价值取决于网络中可以建立的连接的数量。同理,数据要发挥它的最大价值,一定要打通数据间的连通性。图数据库作为高效联通孤立数据的技术,是引爆数据价值的关键要素。认知的基础是知识,而创新的来源是跨知识点之间的连接。可以想象,随着区块链等技术的发展、数据确权及相关政策法规的成熟,未来图数据库发挥价值的一种形态是通过技术与数据结合将庞大知识图谱及基于它的认知计算能力作为基础设施服务提供给多方调用和查询,又通过多方的使用反馈进一步完善系统本身。在未来的商业中,知识也会像今天的水电煤一样随用随取,用户无需再关心底层到底是哪一种数据库,用的是什么计算引擎,只需专注于查询和调用自己需要的知识并将知识推理的结果运用于当前的业务场景创造商业价值就好。

【活动推荐】

张晨,浙江创邻科技创始人兼 CEO,加拿大滑铁卢大学计算机科学博士、麦吉尔大学计算机科学博士后。人社部 2017 年度“中国留学生回国创业启动支持计划”重点类项目人才之一,浙江省千人计划专家,杭州市全球引才“521”计划专家,浙江省钱江人才计划、杭州市西湖区 325 海外引才计划 A 类项目人才,浙商青云榜 30 强。研究方向集中在分布式图数据库领域。

ArchSummit 全球架构师峰会(深圳站)2020 将在 9 月 11 日召开,届时张晨老师会全面分享图数据库选型的标准、方法和结果,涵盖了多款主要图数据库,并结合应用场景,举例说明选型的重要性和建议的解决方案。

目前大会 8 折购票,限时立减 1760 元,查看更多大会详情可扫码下图二维码或点击【阅读原文】,报名咨询票务经理 Ring:17310043226(同微信)