Categories
程式開發

初探未來十年,Cloudera對待數據的全新方式


1977年9月5日,旅行者一號發射升空,攜帶了一張鍍金銅質磁盤唱片記載著人類的聲音,科學,影像,音樂,思想和情感,駛入了浩瀚的宇宙。這是人類具有歷史意義的一次數據的時空遷移,將數據從地球發向宇宙深處,發送給未來的數據接收者。

時隔50多年後的今天,隨著計算機技術,傳感器技術以及互聯網技術的發展,人類的數據總量已經達到了前所未有的規模。數據充斥著每個人的日常生活,對企業的每天都面臨著管理數據以及使用數據的挑戰。

隨著數據規模的指數增長,存儲數據的載體,數據的處理技術,數據的使用的方式方法都在不斷的演進。企業用戶對數據價值的預期也不斷增加。因此企業用戶期望通過數據能快速帶來商業價值,同時對數據的安全,數據隱私與合規等要求越來越高。

根據哈佛的商業評論最近的一份的研究報告顯示,越來越多的企業在尋求企業級的成熟穩定的平台解決方案,在完成基本的數據攝取、數據整合批處理以及數據倉庫的功能的基礎上,還能面向業務人員提供即時互動的分析工具,以及提供建模、數據科學、機器學習,甚至是一些深度訓練的平台工具。

在今天的這篇文章裡,筆者想跟大家分享一下Cloudera這家企業,他們對於企業級數據管理有怎樣的深刻理解,在數據管理需求不斷更替的今天是如何推動開源和創新的。

2008年,Cloudera成立,此後便順應技術發展潮流,持續關注如何能讓用戶更快的從數據裡獲取價值。 2019年,Cloudera提出了全新的對待數據的方式—— Cloudera Data Platform(以下簡稱CDP),賦能企業IT從而應對新的商業挑戰。據了解,CDP是世界上第一款企業數據云平台產品。同時,Cloudera的開源的商業模式發展戰略以及新的開源許可模式,為CDP 未來的發展提供原動力。

一眼十年,數據管理需求日新月異

以2020年為時間節點,回看過去十年以及展望未來十年,企業對數據的應用需求有很大的不同。

過去的十年裡,用戶需求主要集中在解決高效的存儲,並且能夠同時處理大規模數據。通過分佈式的方式把數據分散在不同的服務器上,以分而治之的方式來並發處理數據,避免網絡傳輸帶來的消耗和延遲等。 Hadoop在過去十年裡解決用戶需求的同時也在不斷自我演進。 Cloudera’s Distribution Including Apache Hadoop(CDH)作為眾多Hadoop分支的一種,得到了企業用戶廣泛的認可和使用。

未來十年裡,現有的數據管理使用架構與解決方案面臨新的諸多挑戰。例如龐大集群規模部署時間長,企業實際應用中缺乏高效數據隱私與安全管理,數據災難恢復能力弱,多雲及混合雲跨雲管理繁瑣等。都需要在現有技術架構基礎上進行延展從而來應對這些新的挑戰。 Cloudera的全新CDP產品就是為了幫助用戶應對未來的新挑戰。

從Cloudera數據架構的迭代,看數據管理方式的轉變

Cloudera在Hadoop基礎架構下發展出的商業版CDH,是第一代架構的代表,主要關注在本地部署雲上集中同位的存儲和計算以及大型共享集群;Cloudera認為的第二代架構,主要關注在公有云上的存儲與計算解耦和多集群,例如Amazon EMR;Cloudera目前提出的平台方案CDP被認為是第三代架構,主要關注在多雲以及混合雲上的存儲與計算解耦,多租戶以及容器化的SaaS體驗。

去年年初,Cloudera 正式完成與Hortonwork 的合併,新公司採用Cloudera 品牌,新數據平台將HDP(Hortonworks 數據平台)和CDH(Cloudera Distribution Hadoop)的功能進行結合,加入安全治理堆棧,支持百分百開源,同時支持國際主流的五大公有云平台。

此後,Cloudera開始全面轉變為一家數據云公司,致力於建設四個方面的能力:

  • 在任何云上面,不管是在公有云、私有云,混合雲,還是公有云上的任何一朵雲,都可以來運行Cloudera的數據平台。

  • 提供全數據生命週期支持,不只是提供Hadoop技術本身的支持,還提供在整個數據生命週期所有使用到的工具和平台,包括數據採集、IoT、數據分析、BI、數據倉庫、機器學習、數據科學等。

  • 在數據安全和治理上,提出了共享的數據體驗架構,實現存儲層和計算層的解耦,更好的管理源數據,同時實現數據存儲分離。對數據的安全、治理、血緣和審計方面,提供了單獨的SDX工具

  • 延續100%開源宗旨,保證產品開源開放。

以上四方面能力最終轉化為Cloudera的雲數據平台軟件即為CDP產品。

CDP可以為企業從數據戰略上提供完整的服務,其多雲和混合雲的統一平台解決方案,可以實現快速部署,並靈活適用於企業各自的雲使用策略,節約成本同時實現快速上線。全數據生命週期的支持可以讓企業更加高效的使用數據和挖掘數據,提升企業數據價值。同時數據安全治理為分佈各種雲上的數據提供有效管理。

因此,現在的CDP,既能提供多雲與混合雲的統一平台解決方案,又可以支持企業全數據生命週期中提升數據價值,還能實現企業雲上的數據安全治理。

管理多雲、公有云、私有云與混合雲的新理念

企業在使用雲的策略上,通常會根據其業務特點選擇公有云或私有云,有的企業也會選擇公有云+私有云,並構建混合雲環境。 Cloudera在多雲以及混合雲的使用方面提出了很多新的理念和實踐。

1、私有云對象存儲標準

對公有云來說,原生雲服務商建立了相關的對象存儲標準,但私有云目前確沒有對應的標準。 Cloudera通過主推Ozone為私有云提供未來的對象存儲標準。

Ozone是Cloudera在2019年創建並引入的一個Hadoop子項目,是一個開源的對象存儲項目。引入Ozone是為了能夠徹底解決HDFS文件數量的限制的弱點。目前很多企業用戶在部署大規模集群的時候,都需要使用HDFS聯邦,而HDFS聯邦在實際應用中也存在各種問題,並不是最佳的解決方案,隨著集群規模不斷的增長,局限性也越發的明顯。

Cloudera在不斷研發一些底層的新的存儲技術,計劃在今後幾年能夠替換HDFS,為企業用戶部署大規模集群提供更加優化的解決方案。

2、數據存儲與數據處理的集成

結合CDP存儲跟計算分離的概念,Cloudera將Ozone定位為私有云的數據存儲引擎。 Ozone可以被理解為私有云裡面的“S3”,所有數據都是存放在Ozone裡面,而分離的計算集群都是通過源數據,網絡遠程處理。未來規劃中,Hive、Spark、Impala等一系列的處理引擎都會跟Ozone集成。

同時私有云版上跟公有云版進行映射,從而使存儲的接口和計算引擎都可以在Ozone上面可以實施。由此不但可以滿足用戶使用對象存儲接口的需求,而且可以靈活的去分配計算資源,給開髮帶來很多好處。

3、混合雲體驗

從不同雲的使用上講,CDP提供公有云,Data Center,和私有云版本,提供體驗相同的各種數據服務。例如流式處理,Hive批量處理,Spark和即時查詢等。讓用戶在私有云環境裡面,可以獲得跟公有云一樣的體驗。

用戶使用CDP在自己搭建部署的雲和使用CDP在原生雲服務商的公有云時,CDP都會提供統一的用戶界面和相同的使用的方式。避免了用戶重複學習,同時大大節約了運維集群的時間。

開源商業模式及 CDP 發展戰略

開源是整個軟件技術創新的一個潮流,幾乎所有最新的技術都是以開源的形式在傳播和推廣。同時開源會成就技術的多樣化,一個百花齊放社區的文化可以持續不斷的發展。因此,Cloudera會藉助開源強大的創新能力,不斷提升對用戶的服務。

Cloudera曾公開表示,作為一家開源公司,Cloudera 會延續100%開源的宗旨,並保證產品的持續開源開放。 Cloudera的新的授權許可方式,整合了Hortonworks和Cloudera各自在之前使用的授權許可方式,並在合併Hortonworks之後做出了一些新的改變:

  • 在授權許可方面,Cloudera 所有產品均將採用 OSI 批准的許可證,即 Apache 軟件許可證 (ASL) 或 Affero 通用公共許可證 (AGPL)。在此基礎上,Cloudera貢獻代碼的由 Apache 軟件基金會託管的所有開源項目將繼續由 ASF 監管。同時,Cloudera的代碼貢獻模式沒有改變,第三方項目將繼續採用 upstream first 方式。第三方項目代碼庫的公開源僅保持在 upstream。

  • Cloudera將採用類似紅帽的開源模式,市場及全球企業用戶已接受該模式。從2019年11月開始,產品的二進製文件都將置於付費專區需訂閱後才能訪問。將二進製文件置於付費專區的原因是它為廠商提供了一定程度的保護。二進製文件包含 Cloudera 特定的知識產權,將許多分散的開源項目整合到企業級的功能係統中。

  • CDP會對Hadoop開源組件進行精選與整合,結合新創建的開源項目,提供跨雲服務,全數據生命週期支持,數據安全和治理等,滿足企業級用戶的需求,為企業提供完整的雲數據服務。

Cloudera對以上新的開源許可策略與其業務模型進行了有機的結合。在最終制定策略方向之前,詳細的與客戶,行業專家,律師,同行公司和員工進行了討論與諮詢。採用目前類似紅帽開源模式,是更為友好的開源軟件企業化商業模式服務於用戶,突出了軟件產品的“面向服務”本質,Cloudera的軟件產品按訂閱方式提供,消除了購買軟件的麻煩。

購買訂閱服務與購買私有軟件許可相比,訂閱提供用戶所需的一切,不需要用戶端訪問許可,不需要持續為升級投入成本,沒有服務支持限制以及隱藏費用。購買訂閱的用戶可以獲得諸多價值,例如:

  • 訂閱使用戶可以持續訪問Cloudera的商業軟件,獲得更新與維護,包括所有安全更新和漏洞修復。

  • 訂閱不依賴於特定的版本或架構,讓用戶無需任何代價即可升級系統,易於基於雲的服務器上輕鬆部署。

  • 購買訂閱可以獲得Cloudera的全球服務支持,解決用戶的後顧之憂。服務支持與用戶合作過程中,也打開了用戶與Cloudera研發團隊的通道,在與用戶充分的溝通過程中,研發團隊也能更好的根據用戶的反饋研發更加貼近用戶需求的產品。

  • Cloudera擁有700多個研發工程師,其中大概300名左右的committers,同時其係列產品在全球幾千個大型客戶經過廣泛的驗證,用戶之間的普遍問題可以得到快速的解決。因此企業用戶訂閱Cloudera的企業版產品,不需要建立各自的技術團隊進行平台底層研發和日常維護,讓企業最大限度的節省平台成本投入。

  • 用戶訂閱本質上是購買Cloudera所提供的服務,使用戶能夠釋放出維護軟件版本所需的大量寶貴的工程師資源,也不必擔心轉換平台供應商所帶來的成本投入。令用戶能將更多資源投入在能產生更多收入的應用和產品服務上。

  • Cloudera開發了許多開源項目,這些項目已經成為行業標準,但是沒有一家公司可以成為創新唯一來源。通過投資Spark,Kbernetes和Kafka等開源項目,通過訂閱服務,用戶可以獲得可持續發展的長期架構。

Cloudera通過以上開放包容的商業策略,最大限度的發揮開源社區創新的原動力,真誠的服務於廣大用戶。

結語

在應對企業用戶新需求方面,CDP 通過簡化操作,減少了在整個企業機構內上線新用例的時間。同時使用機器學習來智能地自動調整工作負載,以便更經濟有效地使用雲基礎架構。如此一來,CDP 可以管理任何環境中的數據,包括多種公共雲、裸機、私有云和混合雲環境。

此外,借助共享數據體驗技術(SDX)、CDP 中的安全和治理功能,IT 人員可以放心地在任何地方提供針對數據運行的安全分析。

綜上,筆者係統介紹了 Cloudera 的集成數據平台解決方案,它的特點是讓企業可以更加靈活的組建符合各自需求的雲服務,最終通過使用CDP進行統一管理。同時,其數據隱私以及安全管理方面的設計,可以幫助企業保證日常的安全運營。此外,Cloudera在堅持開源的基礎上,持續探索關於開源生態、商業模式的更多可能性。

未來,我們期待可以看到Cloudera創造更多的產品模式和服務,為企業數據管理帶來更多本質上的進化。