Categories
程式開發

基於Kubernetes的雲平台存儲容器化實踐


本文由 dbaplus 社群授權轉載。

今天分享的主題是OPPO雲存儲的上雲之路。

分佈式存儲介紹

存儲相比於其他組件,更底層,所以有必要做一個簡單的科普。

1、對象存儲

主要是對整個文件進行操作,提供了對整個文件進行增刪查改的能力。不支持對對象內容進行增量修改,如七牛的對象存儲,AWS S3,阿里OSS,呈現給我們調用方式是http api。

2、分佈式文件系統

文件存儲實現了文件的POSIX接口,由於整個文件系統不依賴操作系統,常用於實現共享文件系統,常見的比如說ceph fs,gluster fs呈現給我們的使用方式是文件系統。

3、分佈式塊存儲

提供裸塊的能力交由物理機使用,協議是SCSI,iSCSI,文件系統層由操作系統提供。呈現給我們的使用方式是裸盤,不帶任何文件系統,需要格式化後使用,或者使用塊API。

雲平台存儲基本架構

目前塊存儲主要是三個組件,gateway、storage、 cluster manager。

  • gateway主要是解析iscsi協議,把塊請求解析發送到storage進行處理;
  • storage則是對塊的讀寫操作進行處理,管理磁盤數據
  • cluster manager為元數據中心,保存節點的狀態,對整個集群的健康狀態做仲裁

基於Kubernetes的雲平台存儲容器化實踐 1

雲原生存儲

現在Kubernetes 的趨勢愈演愈烈,Kubernetes 逐漸成為雲原生時代的基礎設施,為了給上雲的程序提供服務,雲原生也隨之出現,目前世面上已經有OpenEBS Portworx 和Rook等產品。

雲原生存儲不僅要為上雲的服務提供服務,自身也利用雲的特性增強自身的功能,依賴Kubernetes的特性,我們可以輕運維,輕部署,利用容器隔離的能力,減少異常進程之前的相互影響,提高整體資源的利用率。

Kubernetes與CSI

Kubernetes作為未來雲上的操作系統,把存儲整個生命週期和管理抽象成三種資源。

1、StorageClass

抽象了管理存儲相關的配置,主要是provisioner、parameters、reclaimPolicy這三個配置。

  • provisioner: 表示某一種存儲資源
  • parameters: 相當於自定義配置,自定義一些存儲屬性
  • reclaimPolicy:設置volume釋放後,pv的動作,Delete or Retain

通過聲明不同stroageclass可以管理多種類型的存儲比如說ceph,glusterfs等等。

2、PersistentVolume

表示一段已分配的存儲,可以是文件系統,也可以是裸塊,雲存儲的雲盤或者文件系統映射到Kubernetes 就是一個PersistentVolume。

3、PersistentVolumeClaim

用戶存儲的請求,可以請求特定的容量大小和訪問模式(例如,可以以讀/寫一次或指向多次模式掛載)。

抽像出PersistentVolumeClaim把存儲和管理分離,通過PersistentVolumeClaim我們可以控制訪問存儲的權限,存儲的容量和類型。

下圖是Kubernetes使用存儲的一個方式:

基於Kubernetes的雲平台存儲容器化實踐 2

這裡衍生下Kubernetes 的一些設計理念,Kubernetes 使用聲明式的API,通過YAML聲明請求,並保存到etcd,這樣做的好處是把整個請求記錄下來,對於問題的回溯也比較方便,不用自己去記錄日誌提煉請求。

另外Kubernetes 還提供了對於各種資源的watch Api,各種資源的crud都可以通過watch api實時的拿到對應的YAML,這樣的設計的好處是讓Kubernetes 擁有非常好的擴展性,通過實現controller 去watch各種資源的變化情況,定義該資源的crud行為。

4、Container Storage Interface

提供一個將任意塊或者文件存儲系統對接到給容器編排系統(COs)上的接口標準,如Kubernetes。

把存儲從創建到銷毀整個生命週期抽象成一組標準接口,Kubernetes通過對接CSI,實現對存儲整個生命週期的管理。

下圖就是CSI定義的存儲卷的生命週期:

基於Kubernetes的雲平台存儲容器化實踐 3

5、Kubernetes中對接CSI

上文說道Kubernetes 對存儲的抽像是StorageClass,PersistentVolume ,PersistentVolumeClaim等資源CSI 則是提供一組標準接口。所以需要引入一層把Kubernetes 中的資源行為轉為CSI接口的程序,Kubernetes 提供了多個sidecar屏蔽這個過程。

這裡簡單科普下sidecar,一般來說,引入sdk實現某些功能,在編譯的時候把sdk代碼編譯進去,更新sdk要重新發布,和工程耦合的比較緊密,sidecar則是把sdk實現的功能通過在pod運行一個獨立的容器實現,通過sidecar們提供rpc接口進行交互,可以作為被調用方,也可以是把服務包裝起來增強服務功能,增加這樣子的好處是解耦,讓更新sidecar容器的版本更簡單。

通過引入以下sidecar,我們可以只專注於實現CSI定義的接口。

  • external-attacher:輔助觸發ControllerPublishVolume
  • external-provisioner:輔助觸發Controller相關接口
  • node-driver-registar:輔助註冊csi插件到kubelet
  • external-resizer:輔助實現volume擴容
  • external-snappshotter:輔助實現volume快照
  • livenessprobe:轉換csi prob到k8s的liveness

6、Kubernetes和CSI的架構

從官網給的圖我們就可以直白的看到粉紅色框的sidecar們相當於一層膠水,把Kubernetes和csi鏈接起來。

基於Kubernetes的雲平台存儲容器化實踐 4

1)PV與調度

至此我們已經講完了Kubernetes和CSI與K8S怎麼交互的,接下來講下PV與調度的關係。

在調度階段,PV的affinity 會影響Pod的調度,所以有調度需求的可以通過PV的affinity控制。

基於Kubernetes的雲平台存儲容器化實踐 5

2)NodeStatgeVolume與NodePublishVolume

之前查閱資料的時候發現這兩個接口的說明講的比較少。

NodeStatgeVolume的接口是把遠端的雲盤掛到物理機上面。 NodePublishVolume的接口是把NodeStatgeVolume之後的盤掛進容器裡面。 Kubernetes 在NodeStatgeVolume階段會給每個PV生成一個全局掛載點,如下圖:

基於Kubernetes的雲平台存儲容器化實踐 6

通過判斷這個掛載點是否掛載可以方式PV重複掛載導致出錯。接下來NodePublishVolume把NodeStatgeVolume的的掛載點掛載的自己Pod文件夾下,最終這個Pod的掛載點會被掛載進容器裡面。

存儲容器化

存儲作為基礎組件,直接和本地盤打交道,所以我們一個要解決的事情就是如果Kubernetes 管理本地盤。

kubernetes管理本地盤

通過官方提供的local-static-provisioner自動生成LocalPersistentVolume管理磁盤。

LocalPersistentVolume是Kubernetes提供的一種管理本地盤的資源。

基於Kubernetes的雲平台存儲容器化實踐 7

1、使用Statefulset管理存儲容器

通過statefulset 管理有狀態的存儲服務, 為每個pod分配一個單獨的磁盤可以使用volumeClaimTemplates給每個pod生成唯一的pvc,具體規則${claimNmae}-${podName},事先準備好PVC 和PV,通過Statefulset 我們就可以把我們的存儲託管到雲上了。另外借助daemonset,可以把我們gateway模塊部署到每一個node上面。處理雲存儲的請求。

基於Kubernetes的雲平台存儲容器化實踐 8

2、存儲容器化的收益

1)降低運維成本

基於Kubernetes和statfulset獲得了滾動更新,灰度更新,健康檢查,快速擴容等功能,只需要一組yaml文件就可以快速搭建一個集群,相比於傳統寫ansible腳本部署的方式複雜度大大降低。

2)降低開發運維成本

由於Kubernetes把存儲抽象成StorageClass PersistentVolume PersistentVolumeClaim。我們可以通過他們管理我們的存儲資源,基於Kubernetes lable的過濾功能,可以實現簡單的關係查詢,通過PVC與PV管理存儲資源,減少管理端的開發。定位問題也能通過POD信息快速定位到問題機器和問題云盤。而且接入Kubernetes生態上的prometheus後,監控告警也能快速開發。

3)隔離性增強

docker限制cpu memory使用,減少進程之間資源互相干擾,進一步提升資源利用率。

作者介紹

蔡逸煌,OPPO雲平台高級後端工程師

主要從事雲平台開發工作,擅長K8S、容器網絡、存儲等領域

原文鏈接

https://mp.weixin.qq.com/s?__biz=MzI4NTA1MDEwNg==&mid=2650787753&idx=2&sn=3ca5aa589e5cfa33c1fe51742b58f572&chksm=f3f97a3cc48ef32ae01f249fcf087df78b4b9b691982ad36d4ea3554358efaf856b6926011ab&scene=27#wechat_redirect