傳達與業務利益相關者有效合作的技巧,并作為數據科學家提供價值
我們的教育系統傾向于強調硬技能,大學畢業后,我的主要重點是盡可能多地學習數據實踐和技術,并擅長我的技術技能。我仍然是一個極客和重視學術知識,但在各個行業工作后,我開始意識到軟技能是打開技術技能的價值的關鍵。投資者、億萬富翁沃倫?巴菲特(WarrenBuffett)在接受采訪時表示,”比現在多值50%的一條簡單方法就是磨練你的溝通技巧”。溝通是我過去績效評估中常見的改進領域,我認為其他人也會與我聯系,因為LinkedIn分享,溝通在美國技能差距排行榜上名列第一。在潮汐,我有幸與那些幫助我把這種弱點轉化為力量的人一起工作,因此,我想在這篇文章中分享幫助我成為一個更好的溝通者的主要技巧。
溝通框架我們,數據人,要求商務人士更注重數據驅動,但我們是以業務為導向的嗎?在一般溝通時,重要的是要從為什么西蒙·西內克在他著名的泰德演講中所說。但是,在機器學習項目方面,什么是”為什么”呢?當成為數據科學家時,我們經常被告知,這是培訓模型并驗證它們。然而,這確實是”如何”,而不是”為什么”。那么,數據科學項目背后的”原因”是什么呢?“為什么”總是與實現某種商業目標有關。無論是通過自動化獲得更多的客戶還是提高流程效率,始終有一個業務目標。創造價值的不是模型培訓本身,而是模型的使用。正如約書亞·塞登在他的著作《產出超過產出的結果》中所解釋的那樣,這改變了我們從產出到結果的心態。我們如何做到這一點?金字塔原理是做到這一點的好方法。我們可以從”為什么”開始,捕捉我們想要實現的目標(例如優化發票收集策略,為我們的會員增加NPS分數)。稍后,我們可以繼續使用”如何”,解決我們為應對這一挑戰而可以遵循的不同方法(例如自動發票追逐問題、預測高風險發票、推薦收款解決方案)。最后,我們可以詳細闡述每個解決方案,并包括更多細節(例如預期影響、可交付性、項目復雜性、實驗技術)。有了這種自上而下的思想結構,聽眾可以盡快理解每個論點的相關性,并在需要時積極指導對話。項目的透明度模型或見解不被使用和遺忘并不罕見,從經驗來看,業務和數據團隊之間的不協調是其背后的主要原因之一。這些數據科學項目中反復出現的錯誤是,從構想階段開始,無法與業務取得聯系,這通常會導致大量返工以使任何模型運行。數據科學家應該與產品團隊討論決策項目的各種主題:- 成功的定義——一個項目應該始終有特定的目標,可以帶來商業價值。因此,數據科學家應該對企業最重要的課題可能是這個項目的成功是什么樣子,以及如何衡量它。這還應確定模型目標以及模型目標的任何代理的定義(如果與成功標準不同)。有一篇關于某人如何在這里陷害機器學習問題的好文章。在測試了假設后,我們可能會發現跟蹤指標中的權衡取利,數據科學家可以幫助企業了解權衡的影響。
- 運營問題——正如之前討論的那樣,模型在運行時主要產生價值。為了避免項目交付的延遲,我們應該盡早問以下問題:”如何使用某個模型?”,”您多久需要更新一次預測?”,”誰將使用這些數據?”否則,錯誤的假設可能導致過度設計的建筑解決方案和錯誤的培訓數據集。
- 數據集和可解釋性-功能是實體的屬性,可以幫助我們預測某個事件。編寫一個數據集來培訓模型階段需要大量的域知識,并建議在此階段引入幾個在特定領域具有豐富經驗的人員。機器學習應用于對風險敏感的環境中(這在像Tide這樣的金融科技公司中很常見),對于利益相關者來說,能夠不同意或同意模型而不成為ML專家是很有用的。換句話說,要具有可解釋的功能,商業專家將能夠感知檢查,幫助建立ML和業務之間的信任。
- 精益實踐——不僅要了解成功是什么樣子(即我們需要前進的方向),還要了解為了創造有價值的東西而必須達到的最低范圍。由于業務方面的人往往缺乏技術背景,數據科學家應該將最低可行精度帶到表中,從而影響模型技術的努力和決策。這基本上是模型需要達到的最低精度,以便有合理的情況下將模型投入生產。它不代表所需的精度,但更多的是一個最低邊界,使項目去/不去決定。在這些討論中,數據科學家需要向利益攸關方強調,所選的最低準確性可能無法通過獲得的數據和訓練有素的模型實現,因此,還應商定這一階段(通常為1–2沖刺)的可接受時間框。
- 回顧-溝通是雙向的,我們是在潮汐敏捷實踐和反饋周期的超級粉絲。我們邀請回顧性會議的利益相關者共同思考項目中的好壞。例如,挑戰如何處理某些攔截器或限制可能會為數據團隊與產品團隊的互動創建新的實踐和提示。
創建數據文化投入時間創建一家注重數據的公司大有裨資,應該能夠在數據部門和其他規模上實現更輕松的溝通。數據團隊最近在大多數公司中引入,與其他更成熟的職能(如財務或法律職能)相比,它們往往與其他業務沒有很好地整合。除此之外,他們沒有眾所周知的做法和流程。有各種方法可以彌補這一差距:- 數據團隊可以集體開始記錄許多商定的過程(例如,我們如何測試假設,如何在風險策略中使用統計模型)和常見術語(例如,功能、機器學習模型、基本模型性能指標)。這樣,數據科學家就不需要多次研究相同的概念。
- 培訓或”午餐和學習”類型的活動也有助于知識共享(例如,機器學習項目的生命周期階段是什么,每個團隊在每個階段的作用是什么)。這些通常會引起數據科學領域的很多關注,這些團隊還沒有機會與數據部門合作。
- 以數據問答會話的形式阻止通信時間也可以使數據團隊更接近業務需求。
- 最后,其他游擊戰術,如在工作通信平臺上發布可交付數據的見解和測量的影響,可能會打破我們與組織其他成員之間看不見的孤島。