資料科學家的工作日常1 - 在資料和程式中挖掘商業價值

系列文章

〈資料科學家的工作日常1 – 在資料和程式中挖掘商業價值〉
〈資料科學家的工作日常2 – 求職前必須了解的公司組織編制〉
〈資料科學家的工作日常3 – 建立資料團隊的文化與程式規範〉


在2019年年中進入零售業擔任資料科學家後,偶爾會有朋友或是朋友的朋友詢問相關工作內容及產業情況。畢竟資料科學家是與數據分析師比較新的職業,還有一些神祕色彩,許多人甚至連聽都沒聽過,還以為是數據分析師是股票分析師另類職稱。雖然確實有人將數據分析應用在股價預測上,但這是另一個故事了。

這篇文章會盡量拿掉所有專有名詞,用人話說明資料科學家的工作日常,提供一些總覽性的介紹,至於其他較實務面的細節與心得會留到之後的文章再分享。

數據分析的職位有三種

數據分析這個學門統稱為資料科學(Data Science),常見的職位有資料工程師(Data Engineer)、資料科學家(Data Scientist)和商業分析師(Business Analyst)。這裡先簡單說明這三者在能力要求上的差別,我所採取的定義是參考加拿大的資料科學媒體Towards Data Science的〈Data Engineer vs Data Scientist vs Business Analyst〉

如下圖所示,資料工程師最重要的技能是電腦科學能力,也就是台灣所說的資訊工程,他們所做的事情是收集、清理並準備好所有的資料,讓另外兩個角色可以方便取用資料。

資料科學家需要有較強的統計學知識,並且通常需要具備建立機器學習模型的能力,這也是這系列文章的主要角色。另外補充一點,資料科學家通常是建立機器學習模型的原型,並讓機器學習工程師佈署,可以參考一樣是Towards Data Science的〈Data Scientist vs Machine Learning Engineer Skills. Here’s the Difference.〉

商業分析師,也稱為數據分析師,更著重在數據與商業面的結合,最核心的技術能力是使用SQL從資料庫抓取所需的資料,並提供商業分析與洞察, 通常不太需有要建置機器學習模型的能力。

以上所述的分工雖然細緻,但實際上不會每間公司都有這麼完整的編制及分工。在國外如此,在台灣當然也是如此。

data science career.jpg

台灣的資料科學業界生態

在台灣,雖然資料科學家是新職位,但數據分析或是資料分析的概念一點都不新。公司裡面行之有年的職位,不管是行銷、業務、採購、倉管,每個職位都需要數據,也都需要分析。隨著大數據、資料科學、機器學習、AI等酷炫的新名詞、新技術與新應用出現,所需的知識與技能多到員工爆肝也學不完,光是學會熟練的運用程式語言就是個挑戰。因此,資料科學家開始被視為一個獨立的職位,甚至一個獨立的部門。

以產業來看,較注重數據分析的產業則有零售業、金融業、科技業、廣告業等。

(1) 組織劃分

由於這個職位出現的時間還不長,大家對於資料科學家還缺乏共同的定義。所以A公司的資料科學家可能偏向軟體開發,B公司的資料科學家可能隸屬市調部門,C公司的資料科學家可能掛在IT部門。因此,如果你想找數據分析或資料科學相關的工作,建議不要只看職稱,最好詳細看一下工作內容和所需能力,相對的,面試官在評估應徵者的能力時,也會著重在實際的專案經驗與能力。

我所在的單位則是獨立的分析部門,協助其他單位作商業上的決策,算是輔助型的單位,或說是智囊團、師爺類型的角色。可以說我們的服務是數據分析,而我們輔助的部門則是客戶,要怎麼了解客戶需求,協助顧客達成商業目標的服務,是我們主要的價值所在。

(2) 能力需求

除了所屬單位外,每間公司的資料科學家所需的技能也不一樣。有些分析師可以用Excel打天下,有些主要製作資料視覺化圖表,呈現出好懂、美觀,甚至具有互動工具的資料儀表板。另外有一種,也是比較接近我定義中的資料科學家,他們要寫程式,需具備一定的IT知識,要學統計和演算法。這種分析師有點像是IT,但又和IT不一樣。IT的工作通常是系統規劃、軟硬體維運和功能擴充,但資料科學家則是要在一堆資料中發掘未知的商業價值(Unknown Insights)。

未知的商業價值是什麼?可以講人話嗎?

數據分析與資料匯總

在講商業價值之前,先來談談數據分析(Data Analyze)或資料探勘(Data Mining),與資料匯總(Data Processing)之間的差異。一樣都是處理資料,因目的不同,又可以分成資料匯總與數據分析。前者總結已知事件,後者為了做出影響未來的決策,也就是預測。

舉例來說,如果你手上有一間服飾店的消費資料,你想知道過去一個月中哪些商品的營業額最高,這就是資料匯總。你的目標很明確,「挑出營業額最高的商品」,實際的操作步驟則是將所有商品的營業額分別算出來,然後挑出最高的那一個,結束。

假如你想知道的是,過去一個月中銷售最佳的這支商品,是不是因為促銷活動導致銷量爆增?促銷活動對這支商品的影響又是多少?以後的促銷活動適不適合再加入這支商品?這個問題明顯困難很多,不是因為它有三個問號,而是增加了許多必須考量的面向。

首先,我們要先知道這支商品在沒有促銷活動期間的銷量,並與促銷期間的銷量作比對,確認促銷活動對這支商品有正面影響。

其次,重複上個步驟,但我們要進一步計算促銷活動對於全部商品的影響。如果促銷活動平均可以提升全部商品20%的業績,卻能提升這支商品30%的業績,我們就可以初步判定這支商品適合做促銷。

說是初步,因為還有其他的細節需要考慮,像是商品毛利率。如果這支商品的毛利率本身就比較低,舉辦折扣促銷後毛利變得更加殘不忍睹。即使帳面上業績很漂亮,但這些都是不賺錢的生意,大家白忙一場。

排除以上原因後,建議你也不要信心滿滿的下結論,「這支商品很適合做促銷」,因為你老闆可能會一臉不爽的回答,「這個商品是羽絨衣,現在剛進入冬天,銷量當然會爆衝啊,就算不做促銷應該也很好賣吧?」。你可能要進一步考慮季節性因素,表面上你一樣在處理資料,但這時候你的問題會變成「季節性和促銷活動,哪一個對羽絨衣的業績正面影響較大?」

在實際的工作流程中,資料匯總是必經的過程,但能不能實際達到數據分析或或資料探勘的層次,並促成有價值的商業行動,我認為這就是資料科學家的價值之所在。

以NIKE為例

以NIKE為例,NIKE旗下有許多系列的運動用品,包含不同的運動類型、機能及價格,他們的分析師可能就會以顧客資料及購買記錄作以下分析:

  1. 顧客經常從事什麼樣的運動?
  2. 顧客購買頻率為何?是產品淘汰才買新的,還是出了新款就會買?
  3. 顧客偏好買當季新品或是Outlet過季品?
  4. 顧客都是到實體門市購買,還是也會在網路購買?
  5. 顧客總是等到折扣促銷時才購物,或是在非促銷期間也會購物?
  6. 顧客是否使用Nike運動手環,或安裝Nike Run App?他們身體狀況和運動表現如何?有沒有機會購買更高階的產品?

以上的問題已經很接近我們平常的工作內容,當然這些議題可以一直列下去,至於值不值得做,就全看商業目標怎麼訂。舉例來說,如果NIKE要推出一款NBA球星代言的籃球鞋,公司要預測哪些人會買,會在線上或門市買,要花多少廣告預算才可以讓他們果斷下單?需不需要給折扣促銷?或是某個贈品比折扣更有吸引力?

把這些問題弄懂後,行銷部門就有理論依據可以規劃行銷活動。如果研究做對了,行銷活動做對了,就能夠為公司創造營收。這就是商業價值。

大數據分析

所謂大數據分析的特徵有5個V,其中一個是多樣化Variety,就是除了顧客總消費金額外,從其他各種面向判斷並預測顧客的行為,進而轉換為商業價值。這也是為什麼我認為會寫程式,具備一定IT知識的才算是資料科學家,因為當面對幾百萬、幾千萬、幾億筆資料時,Excel根本跑不動,更別提要對這些資料進行複雜的統計分析。

資料科學家的任務會根據公司的定位和業務而有所不同。NIKE是品牌零售商,除了營業額外,NIKE也會在意品牌市占率,而通路業的全聯可能更關心哪些商品的迴轉率高,以及應該準備多少庫存,如何降低生鮮食品的報廢率等議題。

金融業也是數據分析應用得相當廣泛的產業,他們會分析顧客的貸款還款能力,或是判斷信用卡消費記錄是否為詐騙盜刷。

零售業有很多東西可以玩

數據分析相關職缺較多的產業有三個,零售業、金融業及科技業。平均而言,零售業的平均薪水最低,金融業次之,科技業最高。比起金融業和科技業,零售業的毛利本來就低,因此薪資偏低也就顯得理所當然。

然而,在這三個產業中,我認為零售業也是最好玩的,因為它很生活化,你可能會分析各種節日,甚至是總統大選對於業績的影響,或是發現收銀台旁邊的小零食總是特別好賣。在零售業,你也有較高的機會可以走進店裡,直接觀察消費者怎麼逛、怎麼挑,他們會先看商品細節還是先看價錢,男生和女生的購物習慣有沒有差異。你可以帶著觀察結果回到電腦前,用資料驗證自己的推測是否正確,有沒有機會變成一個行銷活動,為公司創造價值。

社群媒體的熱絡與持續進化也是零售業的樂趣之一,像是PTT或是DCARD上面的各種討論,這些討論的人中是不是包含潛在消費者,能不能讓小編出馬去帶帶風向並轉換成業績。另外,LINE在2019年也實施了官方帳號2.0計畫,行銷人和資料科學家有更多的資料可以分析,也有更高的彈性可以作測試與實驗。

雖然零售業的薪資偏低,但這也代表這個產業較願意接受新人。畢竟零售業是民生產業,有固定需求,當有經驗的老鳥留不住時,只好任用比較資淺,甚至無工作經驗、非本科系的應徵者。加上零售業的發揮空間也算大,因此,對於想進入資料科學領域的人而言,我認為零售業還是個不錯的選擇。

事情不會永遠那麼順利

有陽光的地方就有陰影。數據分析雖然有趣,卻也有困難的地方。像是老闆覺得數據分析潛力無窮,但怎麼過這麼久,卻沒產出驚天地泣鬼神的成果?或是其他在第一線銷售單位的同仁會疑惑,我們不是在同一間公司嗎,你怎麼連這個產業基本的Sense都沒有?

三言兩語寫不完,我們下篇文章見。

線上學習資源

如果你對於資料科學有興趣,在國內外都有不少優質的線上教學平台,像是台灣的Hahow或美國的Udemy。Udemy的課程內容雖然以英文為主,但陸續也有不少中文課程上架。另外,也有一些專門做程式設計教學的平台,使用者可以直接在網站上練習寫程式,如DataCamp,可以參考〈在DataCamp學Python和R語言,快速入門資料科學〉