Categories
程式開發

分析師憑什麼要做數據科學領域的“二等公民”?


小心你所熱衷的技能,因為不明智的選擇可能帶來毀滅性的後果。除了團隊管理不善和不必要的錄用之外,你還會看到真正的英雄辭職或接受再教育,以適應你當前的激勵機制。這種現象的一個典型例子就是分析學。

尋找頂尖人才

數據科學領域的頂尖人才很難找到,這並不奇怪:“全棧”數據科學家意味著精通機器學習統計分析。當團隊無法得到三合一的博學者時,他們就把目光放在了吸引單一專家中最令人印象深刻的角色上。誰獲得了寵愛?

如今,數據科學的流行趨勢是,華而不實的複雜技術加上一點科幻色彩,讓人工智能和機器學習成為招聘領域的寵兒。挑戰其第一位置的其他挑戰者來自統計,這要感謝其一個世紀以來的嚴謹聲譽和數學優勢。那分析師呢?

分析是二等公民

如果你的主要技能是分析(或數據挖掘或商業智能),那麼當前面提到的那些人昂首挺胸地從你身邊走過,而就業市場又毫不避諱地告訴你需要提升自己的技能才能加入他們時,你的自信心很可能會受到打擊。

優秀的分析師是數據工作有效的先決條件。讓他們放棄對你來說很危險,但如果你低估了他們,他們就會這麼做。

外行人很少能理解的是,在數據科學的環境裡,這三種職業是完全不同的。但相似之處是,他們可能使用相同的公式。優秀的分析人員絕不是其他數據科學角色的殘缺版本,而是數據工作有效的先決條件。讓他們放棄對你來說很危險,但如果你低估了他們,他們就會這麼做。

同樣受人尊敬

與其要求分析師開發他們的統計機器學習技能,不如考慮鼓勵他們首先尋求在自己的學科上達到一定的高度。數據科學這個東西,一個領域的卓越勝過兩個領域的平庸。

這三個數據科學學科都有自己的優點。統計學家帶來嚴謹,ML工程師帶來效能,分析師帶來速度。

在最高級的專業知識方面,這三個角色都同樣受人尊敬,但它們提供的服務非常不同。為了理解其中的微妙之處,讓我們來看看在每一門數據科學學科中成為真正優秀的人意味著什麼,他們能帶來什麼價值,以及在每一份工作中需要具備哪些性格特徵。

統計人員的優秀之處:嚴謹

作為在數據之外得出結論的專家,統計學家是避免你在一個不確定的世界裡自欺欺人的最佳保護。對他們來說,草率地推斷某件事比讓你的大腦一片空白更不可取,所以我們會希望有一位優秀的統計學家來抑制你的興奮。他們總是小心翼翼地關注所採用的方法是否適合問題,並為從手頭信息中推斷出的哪些結論有效而煩惱。

大多數人都沒有意識到統計學家本質上是知識學家。既然沒有什麼魔法能讓不確定性變成確定性,那麼他們的角色就不是生產真理,而是將令人愉快的假設與可獲得的信息合理地結合。

結果呢?提供一個幫助領導者以風險控制的方式做出重要決定的視角。

不出所料,許多統計學家對“自命不凡的人”的反應都是尖酸而刻薄,這些人只是學習些公式,卻沒有汲取任何哲學知識。如果與統計學家打交道讓你感覺筋疲力盡,這裡有一個快速解決方案:不要數據之外的任何結論,你也不需要他們的服務。 (說起來容易做起來難,對吧?特別是如果你想做一個重要的發布決定。)

機器學習人員的優秀之處:效能

如果你對“我打賭你不能建立一個準確率99.99999%測試模型”的回答是“看我的。”,那麼你可能是一名應用機器學習/AI工程師。

有了編碼能力,可以建立起可行的原型和生產系統,以及延續數年每小時都失敗的強大恢復能力(如果那是必要的),機器學習專家知道,他們無法在教科書中找到完美的解決方案。相反,他們將陷入一場馬拉松式的反複試驗對他們嘗試每一個新選項需要多長時間有良好的直覺是一個巨大的優勢,而且比深入了解算法的工作原理更有價值(儘管兩者兼而有之也很好)。

結果呢?這個系統可以很好地自動化一項複雜的任務,從而通過統計人員的嚴格測試,並提供業務領導者所要求的非常規效能。

效能不僅僅意味著明確一個度量標準——它還意味著可靠、可伸縮和易於維護的模型,這些模型在生產中表現良好。優秀的工程設計是必須的。

廣度 vs. 深度

前面兩個角色的共同點是,它們都為特定的問題提供了高質量的解決方案。如果他們處理的問題不值得解決,你最終會浪費他們的時間和金錢。業務負責人經常會發出這樣的嘆息:“我們的數據科學團隊毫無用處。”而問題通常在於缺少分析專家。

統計學家機器學習工程師是窄而深的工作人員(順便說一句,就像兔子洞的形狀),所以為他們指出值得努力解決的問題是非常重要的。如果你的專家們正在小心地解決錯誤的問題,那麼你在數據科學上的投資當然只會獲得低迴報。為了確保你可以很好地利用窄而深的專家,你需要確定你已經有了正確的問題,或者你需要一個寬而淺的方法來找到一個問題。

分析人員的優秀之處:速度

最好的分析師是快速的程序員,他們可以快速瀏覽大量的數據集,比其他專家所說的“白板”更快地發現並提出潛在的見解。他們有些馬虎的編碼風格讓傳統的軟件工程師感到困惑……直到把他們遠遠甩在後面。速度是其最大的優點,其次是不忽視可能有用的東西。掌握信息的可視化表示有助於解決大腦方面的速度瓶頸:漂亮而有效的圖表讓大腦可以更快地提取信息,快速獲得潛在的見解。

在統計學家和ML人員反應遲鈍的領域,分析師是決策者和其他數據科學同事的靈感旋風。

結果是:企業摸清了脈搏,看到了以前未知的未知。這帶來了靈感,幫助決策者選擇有價值的任務並將其發送給統計學家和ML工程師,將他們從數學上令人印象深刻而又實際沒用的兔子洞中拯救出來。

草率的廢話,還是精彩的故事?

“但是,”反對統計學家的人說,“他們大多數所謂的見解都是胡說八道。”他們的意思是,這些人的探究結果可能只反映噪音。也許吧,但還有更多的故事。

分析師是數據故事的講述者。他們的任務是總結有趣的事實,並小心地指出,如果沒有統計跟踪,任何伴隨而來的詩意靈感都不會被認真對待。

買家注意:有很多數據騙子冒充數據科學家。沒有什麼魔法能使不確定性變成確定性。

優秀的分析師對他們職業中的一條黃金法則有著堅定不移的尊重:不要在數據之外得出結論(並阻止你的受眾這麼做)。不幸的是,貨真價實的分析師相對較少——買家注意:有許多冒充數據科學家的數據騙子。他們胡言亂語,毫無章法地跳出數據,“支持”一廂情願的決定。如果你的道德標準是寬鬆的,也許你會把這些蛇油推銷員留在身邊,讓他們成為你的業務營銷黑魔法的一部分。就我個人而言,我寧願不要。

優秀的分析師對他們職業中的一條黃金法則有著堅定不移的尊重:不要在數據之外得出結論。

只要分析師堅持事實(“這裡就是這個。”這是什麼意思?“只是:這裡就是這個。”),不要對他們過於嚴肅,他們犯下的最嚴重的罪行就是浪費別人的時間。出於對他們的黃金法則的尊重,優秀的分析師會使用溫和的、模棱兩可的語言(例如,不是“我們得出結論”,而是“我們被激發出好奇心”),通過強調對每一種見解都有多種可能的解釋,來打擊領導者的過度自信。

雖然檢驗假設需要統計技能,但分析人員是首先提出這些假設的最佳人選。例如,他們可能會說“這只是一種相關性,但我懷疑它可能是由……”,然後解釋為什麼他們會這麼想。

這需要對數據之外可能發生的事情有很強的直覺,以及將選項傳達給決策者的溝通技巧,決策者通常會決定哪些假設(許多假設)足夠重要,值得統計學家付出努力。隨著分析師的成熟,他們將開始掌握竅門,判斷什麼東西是重要的,什麼東西是有價值的,從而讓決策者擺脫中間人的角色。

在這三類人中,分析師是最有可能繼承王位的人。

因為學科問題專家可以幫助你更快地發現數據中有趣的模式,所以最好的分析師會認真地熟悉這個領域。不這樣做是一個危險的信號。當他們的好奇心促使他們對業務產生一種感覺時,他們的產出就會從一堆錯誤的警報轉變為一套決策者更有可能關心的、精心策劃的見解。

為了避免浪費時間,分析師應該列出他們想要講述的故事,並從多個角度進行後續調查,看看它是否站得住腳,然後再提交給決策者。如果決策者處於被一個鼓舞人心的故事驅使採取重要行動的危險之中,這是統計人員介入的信號,根據決策者願意接受並承擔風險的假設,檢查(當然是在新數據中)行動是明智的選擇。

分析師和統計學家的複合人才

對於堅持事實的分析師來說,沒有什麼會錯,只會慢。在“做正確的事情”中加入統計專業知識忽略了一個重要的點,特別是因為在探索性數據分析和統計嚴謹性之間有一個非常重要的過濾器:決策者。具有決策責任的人必須在業務影響上簽字,確認分析師的見解值得花費專家大量的時間。除非分析學家和統計學家的複合體同時也是一個有經驗的決策者和業務負責人,否則他們的技能組合形式就像一個有夾層的三明治。

然而,一位填補這一缺口的分析師,其價值堪比黃金。請珍惜他們!

機器學習和AI分析學

機器學習專家將大量潛在的數據輸入算法,調整設置,並不斷迭代,直到產生正確的輸出。雖然聽起來似乎這裡沒有分析的角色,但在實踐中,一家企業往往有太多可能的配料,無法一下子把它們全部塞進攪拌機裡。

分析師是短跑運動員;他們具有幫助你快速查看和總結“是什麼”的能力,而這種能力是你的流程的超能力。

有一種方法可以篩選到一個有價值的集合來嘗試,那就是領域專家——詢問一個人對事情如何運作的看法。另一種方法是通過分析。跟烹飪做個類比,機器學習工程師擅長在廚房裡修修補補,但現在他們正站在一個巨大而黑暗的倉庫前,裡面裝滿了可能的配料。他們可以隨意取一些,把它們帶回廚房,也可以先派一個帶著手電筒的短跑運動員穿過倉庫。你的分析師就是短跑運動員;他們具有幫助你快速查看和總結“這裡是什麼”的能力,而這種能力是你的流程的超能力。

分析師和機器學習專家複合人才

分析人員可以加速機器學習項目,因此雙重技能非常有用。不幸的是,由於分析和ML工程之間的編碼風格和方法差異,個人擁有最高專業知識的情況並不常見(更罕見的是,在需要的時候,他會變得遲鈍而富有哲理,這就是為什麼真正的全棧數據科學家確實是一頭罕見的野獸)。

長期低估的危險

一個專家分析師不是機器學習工程師的一個粗製濫造的版本,他們的編碼風格特意針對速度做過優化。他們也不是糟糕的統計學家,因為他們根本不處理不確定性,他們處理的是事實。 “這是我們的數據,我的工作不是討論現有數據之外的意義,但它可能會激勵決策者與統計學家一起探討這個問題……”

初學者沒有意識到,這項工作需要頂級分析師對數據科學的數學理解比其他任何一種角色都要好。除非這項任務非常複雜,需要發明一種新的假設檢驗或算法(這是研究人員的工作),否則統計學家和ML專家可以依賴於檢查現成的軟件包並檢驗它們是否適合這項工作,但他們通常可以不必親自面對這些公式。

例如,統計學家可能會忘記t檢驗的p值公式,因為他們是通過點擊並運行一個軟件包來得到它,但他們永遠不會忘記如何以及何時使用它,以及對結果的正確哲學解釋。另一方面,分析師們並不打算對此做出解釋。他們想要一個駭人而巨大的多維數據集。通過了解p值公式對數據集的切片方式,他們可以對原始數據集中的模式形成一個反向視圖,從而生成他們看到的數字。沒有對數學的理解,你就不會得到那個觀點。然而,與統計學家不同的是,他們並不關心t檢驗是否適用於數據。他們關心的是t檢驗能讓他們對當前數據集中發生的事情有一個有用的看法。區別很細微,但很重要。

統計學家處理數據之外的事情,而分析師則專注於數據內部的事情。

對於最優秀的人員,他們都是非常數學化的,他們經常使用相同的公式,但他們的工作是完全不同的。

類似地,分析人員經常使用機器學習算法對數據進行切片,識別引人注目的分組,並檢查異常情況。因為他們的目標不是效能,而是靈感,所以他們的方法不同,並且對ML工程師來說可能顯得草率。同樣,這是在不同的工作中使用相同的工具。

用一個類比來總結一下:外科醫生、裁縫和辦公室職員都用大頭針。這並不意味著這些工作是相同的,甚至可以相提並論,鼓勵你的所有裁縫和辦公室工作人員學習外科手術來提升他們的職業生涯是危險的。

每項業務都需要的唯一角色是決策制定者和分析師。如果你失去了分析師,誰來幫你找出哪些問題值得解決?

如果你過分強調僱傭和獎勵機器學習和統計方面的技能,你就會失去分析師。那麼誰來幫你找出哪些問題值得解決呢?你將只剩下一群可憐的專家,他們一直被要求從事毫無價值的項目或分析任務,而他們並不是主動要參加這些項目或任務。你的數據將毫無用處。

關心和培養研究人員

如果這聽起來還不夠糟糕,許多領導者試圖聘請博士,並過分強調研究——而不是應用——統計學家和ML工程師的版本……而又沒有一個有價值的、重要的、已知算法不可能解決的問題。

只有當你投資於一個研究部門,而且你不打算詢問你的研究人員最近為你做了什麼時,這樣做才合適。為研究而研究是一項高風險的投資,很少有公司能夠承擔得起,因為從研究中得不到任何有價值的東西是一種非常現實的可能性。

只有當你有合適的問題需要研究人員解決時,他們才不屬於研究部門——他們的技能是在現成的版本並不存在時從零開始創建新的算法和檢驗——否則他們將經歷一個暗淡的西西弗斯螺旋(這將完全是你的錯,而不是他們的)。研究人員通常要花上10年多的時間進行培養,這至少值得尊重,因為他們不必投入到完全無關的任務中去。

如果有疑問,首先僱傭分析師,而不是其他角色

因此,在分析人員幫助你確定了一個有價值的項目,並嘗試借助應用數據科學家來完成它,但已經失敗之後,才應該將他們召到一個應用項目中。那就是你培養專業發明家的時候了。

小 結

如果有疑問,首先僱傭分析師,而不是其他角色。感激他們並給予獎勵。鼓勵他們在他們所選擇的事業(而不是其他人的)上達到頂點。在這篇文章提到的角色中,只有決策者和分析師是每項有數據的業務都需要的角色。其他的角色只有當你確切知道需要它們做什麼的時候才有用。從分析開始,並為你的新能力感到自豪,你可以睜開眼睛,豐富和美麗的信息就在你的面前。靈感是一種強大的東西,不容忽視。

查看英文原文:

https://towardsdatascience.com/data-sciences-most-misunderstood-hero-2705da366f40