Categories
程式開發

一位數據科學家的獨白


最近幾年,雲的出現以及企業紛紛向互聯網轉型導致了數據大爆炸。因此,數據科學家在市場上供不應求。

據《哈佛商業評論》稱,21世紀數據科學家是最性感的職業。他們每天暢遊在大數據的海洋裡,與AI和深度學習為伴,探索並發現撬動世界變革的力量。而在真正的數據科學家眼中,他們對自己的認知卻和外界有所不同,下文是來自一位數據科學家的自白。

過去5年,我一直從事“ 數據科學家 ”這個工作,人們都覺得這個工作“很性感”,但其實我始終弄不明白到底哪兒“性感”。可能除了我新燙的頭髮看起來有點像韓國歐巴外,其他的都和性感這個詞不沾邊兒。

那麼,我就先來為大家揭秘數據科學家每天要做的工作有哪些?

通過分析LinkedIn上的職位發布我得出了以下內容,我總結了一些最為日常的工作內容:

  • 了解業務和客戶,對假設問題進行驗證;
  • 建立預測模型和機器學習流水線,進行A / B測試;
  • 歷史數據的分析挖掘:包括跟各種產品線相關的業務分析,用戶畫像,用戶行​​為分析,用戶留存分析等;
  • 開發算法為業務線賦能;
  • 進行實驗並研究新技術和方法,提高技術能力;

這些工作聽起來是不是很性感?

而這些,僅僅是數據科學家工作的“冰山一角”。

在CrowdFlower的一份調查中揭露了數據科學家每天的日常工作:

一位數據科學家的獨白 1

通常,我們認為數據科學家每天都在構建算法、研究數據並進行預測分析。從上表中可以看出,這並不是他們的主要工作內容,實際上他們大部分時間都在收集數據集、清理和管理數據。

為什麼需要高效的數據清理專家?

數據湖是存儲公司所有數據的集中存儲庫。企業或組織可以使用數據湖中的數據來構建機器學習模型和儀表板。但令人不解的是,有人把數據湖當成了數據存儲中轉站,或者是超大硬盤。

許多組織最初實施數據湖時,對如何處理收集中的數據一無所知。他們不明就里地去收集一切數據,根本不去考慮其實際用途。儘管數據湖的核心作用是將公司的所有數據集中在一個地方,但需要根據特定的項目需求對數據湖進行定制化設計。不進行合理規劃就像創建一個新的“未命名文件夾 ”,然後在其中復制並粘貼公司所有數據,到頭來只會變為一團亂麻。

及時清理數據是十分必要的。其實,數據科學家並不喜歡處理雜亂的數據,所以他們不得不花費很長的時間來進行數據清理、數據標記和數據精練。在調查數據科學家最不喜歡做的工作排名時,我們得到了這樣的結論:他們最不喜歡的,也是花費時間最長的工作就是清理和管理數據。

一位數據科學家的獨白 2

數據科學家最不喜歡的工作內容排名

“臟數據”無所不在

每個處理數據的人都應該聽說過“ 臟數據”一詞。因為原始數據存在各種各樣的問題,如篡改數據、數據不完整、數據不一致、數據重複、數據存在錯誤、異常數據等,這些情況我們統稱為存在“臟數據”。 “臟數據”的存在不僅浪費時間,而且可能導致最終分析有誤。

數據不完整是指某些基礎特徵缺失。例如,假設你的任務是預測房價,在這其中“房子的面積”對於預測房價來說至關重要,但是如果這部分信息缺失,這項任務很可能就無法完成,因此模型的效果也就會不佳。

數據不准確和不一致是指數值在技術上是正確的,但放在場景中就是錯誤的。例如,一名員工變更了他的地址,但是並未及時更新,或者某一組數據有多個副本,但是數據科學家使用的版本是過時的版本,這些都指的是數據的不准確和不一致。

重複數據是一個普遍的問題。我與大家分享下我在一家電商公司發生的一件事。根據設計,當訪問者單擊“領取優惠券”按鈕時,網站會響應到服務器上,隨後我們就能計算出有多少用戶收集到了優惠券。

網站一直運行良好,但突然有一天網站發生了點狀況,而我卻對此一無所知。前端開發人員在有人成功領取優惠券時添加了另外一個響應,理由是某些優惠券可能缺貨。他們新添加的另外一個響應是想跟踪單擊該按鈕的訪問者以及已經領取完優惠券的訪問者。

在添加完新的響應後,兩個響應結果都發到了同一個log表中。等我再查看我的報告工具​​時,發現領取的優惠券的數量似乎在一夜之間翻了一番!在前一天部署模型時,我還天真地以為我的新模型會很完美,但後來我才意識到我只是做了重複計算。

一位數據科學家的獨白 3

數據科學家最應該掌握的十大技能

除了數據清理和管理,數據科學家還要做什麼?

這個世界每天都充斥著海量的數據,有的來自人工輸入,有的來自機器日誌,但無論是那種數據,數據整理都是現實世界中數據科學家工作的重要部分。為了使監督學習更加有效,我們需要可靠的、帶有標籤的數據,標記錯誤的數據無法建立預訓練模型,但問題在於,沒有人喜歡這項繁雜的、枯燥的數據標記工作。

許多人將數據科學家的工作描述為80/20原則。也就是說他們會用20%的時間來構建模型,而其他80%的時間用於收集、分析、清理和重組數據。處理臟數據是數據科學家工作中最耗時的部分。

儘管這項工作做起來很讓人厭煩,但數據清理在任何一個項目中都是十分重要的,凌亂的數據不會產生好的結果,就像很多人都聽過一句話“輸入的是垃圾,得到的也會是垃圾”。

如果要來對我的工作進行個總結,我會認為我是40%的數據清潔工、40%的數據管理員,最後20%的…算命先生,因為我還要在出現問題時進行診斷和分析,找出癥結所在。

參考鏈接:

https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845