Categories
程式開發

NASA太難了:將247 PB數據放到AWS卻付不起高額下載成本


本文首發於InfoQ Pro,更多精彩內容搶先看,盡在InfoQ Pro

單是這一項決策失誤,就讓 NASA 的雲戰略從天堂瞬間跌進了地獄。

到 2025 年,美國宇航局(NASA)計劃新增 215 PB 數據存儲空間,並希望 AWS 能夠提供其中大部分雲存儲的容量。但讓 NASA 沒想到的是:把數據遷移至雲端之後,出口端的數據下載成本卻大幅激增,而他們並沒給這筆投入做預算。

換句話說,以後科學家們必須得付費才能下載這些本就屬於他們的數據。

單是這一項決策失誤,就讓 NASA 的雲戰略從天堂瞬間跌進了地獄。

按原定計劃,NASA 到 2025 年將擁有 247 PB 的數據處理能力,這些數據放在雲端。 NASA 跟 AWS 簽下的是一筆多大的單子呢?每月花費達 543.9 萬美元。到 2025 年,除 6500 萬美元的原有交易額外,NASA 每年還得額外向 AWS 支付約 3000 萬美元的新增雲服務開銷。

NASA太難了:將247 PB數據放到AWS卻付不起高額下載成本 1

NASA 忘了一個前提——雲端數據下載成本

受到影響的數據主要來自 NASA 下轄的地球科學數據與信息系統(ESDIS)計劃,此項計劃旨在從與地球觀測相關的眾多空間任務中收集信息。收集完成後,相應讀數將由地球觀測系統數據與信息系統(EOSDIS)向各研究機構交付。

為了存儲所有數據並支持整套 EOSDIS,NASA 運營有 12 處分佈式主歸檔中心(DAAC),並藉此帶來安全穩定的冗餘和備份。但沉重的基礎設施管理負擔也讓宇航局倍感壓力,因此在 2019 年,他們決定選擇 AWS 託管所有基礎設施,並逐步通過 Earthdata Cloud 項目將觀測記錄遷移至亞馬遜雲。從本地存儲向雲端的首次數據遷移,原本計劃在 2020 年第一季度進行,剩餘部分則後續分批處理。宇航局方面希望能在未來幾年內,陸續將全部數據遷移至雲環境當中。

NASA 當然很清楚,接下來還將有 PB 級別的數據洪流不斷湧來。後期預計約有15 個即將上線的新任務考驗這套新的基礎設施,包括NASA-ISRO 合成孔徑雷達(NISAR),以及用於檢測地表水與海洋地形(SWOT)的專用衛星,它們每天都將產生超過100 TB 的數據。這里之所以著重強調 SWOT 與 NISAR,是因為二者將成為首批直接將數據轉為存儲至 Earthdata Cloud 的空間科研項目。

按預定計劃發展,宇航局方面到 2025 年將擁有 247 PB 的數據處理能力,遠遠高於目前的 32 PB。

宇航局對這項云端計劃本來是頗為興奮的,並在遷移項目文檔中提到:

美國宇航局地球科學數據的研究員與商業用戶將得以快速訪問並處理大量數據,加快研究與分析速度。以往在地理層面相互孤立的數據現在可以通過雲端統一訪問,從而節約時間與資源。

但他們忘了一個前提——數據下載成本。

這是一個現實但卻極易被忽視的問題,NASA 監察長在今年 3 月發布的審計報告中註意到:EOSDIS 並沒有在這項云端計劃當中正確核算數據在出口端被下載產生的費用。

監察長辦公室評論道,“具體來看,NASA 忽略了從雲端傳出數據所帶來的成本大幅提升這一問題。”目前,在用戶通過DAAC 訪問數據時,宇航局方面並不會承擔額外的成本。 “但如果最終用戶從 Earthdata Cloud 處下載數據,那麼每次數據傳出都會給 NASA(而非用戶)增加對應的成本。”

“這意味著 ESDIS 將面臨巨大的“雲出口”成本。最終,ESDIS 將同時面臨 12 處 DAAC 的成本,外加雲資源使用成本(包括出口費用)。”

NASA 為何總犯這樣愚蠢的錯誤?

更糟糕的是,宇航局方面“還沒有確定具體需要將哪些數據遷移至 Earthdata Cloud,也尚未根據運營經驗、使用情況與出口指標組織成本模型。”

“結果就是,現有的預估成本可能會遠遠低於未來運營中的實際成本:把數據遷移到雲端反而會令整個體系變得成本高昂且難以管理。”

不止如此,監管機構得出的結論是,“總體而言,如果出於成本控制的考量而對數據輸出量加以限制,那麼宇航局的最終用戶很可能無法獲得必要的科學數據。”

最重要的是,這份報告還發現項目的組織方並沒有進行過充分諮詢,沒能遵循NIST 提出的數據完整性標準,甚至因為審計團隊中的半數成員都直接參與到項目當中,而未能在內部審計流程中充分考慮到成本節約的問題。

下面是審計機構提出的三點建議:

一旦 NISAR 與 SWOT 投入運行並產生足夠的數據,宇航局方面應對其進行獨立分析,藉此確定在保持現有 DAAC 設施之外推動雲遷移與雲運營,是否具備長期的財務可持續性。

結合相關機構提供的指導,宇航局應在數據管理計劃制定期間之內,特別是 ESDIS 與 OCIO 任務的生命週期早期,對這兩個項目的運營需求進行協調。

確保在 DAAC 分類過程中考慮到所有適用的信息類型,確定在哪些條件下適合使用本地基礎設施,並將這種分類程序組織為新的標準。

通過以下賬目,可以看到NASA 跟AWS 簽下的是一筆多大的單子:通過亞馬遜方面提供的云成本計算器,我們發現在S3 服務當中存儲247 PB 數據(配合即用即付計費模式) ,如果不包括12% 的套餐折扣的話,每月的花費高達驚人的543.9 萬美元。審計結果同時顯示,到 2025 年,除了高達 6500 萬美元的原有交易額外,NASA 每年還得額外向 AWS 支付約 3000 萬美元的新增雲服務開銷。

我們用不著像火箭科學家那麼聰明,也能輕鬆理解數據出口端成本這個基本概念。這就更讓人驚訝了,像 NASA 這樣一個能夠把真人送入地球軌道、甚至向火星發射探測器的頂尖機構,居然也會犯下這樣愚蠢的錯誤。

事實證明,NASA 犯的錯可不止這麼一點。就在前幾天,我們還從他們移動發射架項目的審計報告中發現了新的猛料。有些朋友可能不太熟悉,所謂移動發射架,專為 SLS 及 Orion 火箭及太空艙組裝、運輸與發射所設計的大型運載工具。

審計報告顯示,該項目在“ML-1 的開發過程已經造成嚴重的成本超支,且項目進度遠遠落後於預期。截至2020 年1 月,為滿足SLS 要求而對ML-1 進行的改造工作已經花費6.93 億美元,而宇航局方面2014 年3 月給出的初步預算僅為3.08 億美元。與此同時,項目的當前進度也比原定計劃落後了三年有餘。”

參考鏈接:
https://www.theregister.co.uk/2020/03/19/nasa_cloud_data_migration_mess/?

NASA太難了:將247 PB數據放到AWS卻付不起高額下載成本 2