2014年10月30日 星期四

成為資料工程師所須要學習的 28 堂課

雖然說 Big Data (大數據) 是一個很夯的話題, 但就像一個笑話:
Big Data is like teenage sex:Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it so everyone else claims they are doing it too.
雖然說就大部份而言, 這笑話是真的, 只是誇張了點, 因為 Big Data 目前遇到的問題還是相當的多, 就像是前幾天有一個朋友問我, 為甚麼電子商務網站都宣稱想做或要做資料探勘或大數據, 但為甚麼沒人去做呢? 我回答了幾個問題點:

  1. 沒有真正了解資料價值的專案負責人: 大部份的專案負責人或產品經理, 都是從業務, 商品, 行銷出身, 對他們而言無論是在學校的學習, 執行的經驗, 進修的內容都沒有相關的知識, 在沒有對這種背景知識有足夠了解的人, 如何去產生與企劃, 既使大部份都是別人在做的, 但若沒有概念是不行的.
  2. 要有人對做出來的業績與成果去承擔: 而若是沒有行銷與業務或產品去推, 那由資訊的人去推或許是合理的, 但最大的問題是資訊在電子商務是屬於後勤人員, 本身是不扛業績的, 而這種專案做出來會排擠其他的 Quota, 在沒有人須要的情型下最後只好無疾而終.
  3. 外包的成本太高, 但內部的人又沒經驗: 上面兩個問題若是遇到有心的老版就不是問題, 但真的要開始做時面臨到到底要 In-House 還是 Out-Sourcing, 雖然內部做是外部的三分之一到五分之一, 且對 BI (企業智慧) 比較能夠切中目標, 但人才與經驗是個很大的問題, 所以不是大好就是徒勞無功.
  4. 比 Big Data / Data Mining 更重要的事還很多: 大部份的電子商務公司最大的問題是資源不足, 而大家可以看 "九項如何建立有效商品推薦系統, 所須要知道的進程導引與架構指南" 這邊就可以知道能做的還很多, 在人力與資源不足得情形下被放棄或延後是合理的.
當然大家知道最大的問題還是台灣的市場與老版的企圖心都不太夠, 但拉回來, 身為工程師的我們, 真的有足夠的能力去擔當這責任嗎?

台灣的價值應該是在於人才, 而要去實作出這樣的系統須要:
  • 資料工程師: Data Engineer
  • 資料科學家: Data Scientist, Data Mathematician 
  • 資料專家/經理人: Data Expert, Data Manager
有人把這三個角色畫成下面的圖我覺得蠻有實務感的:
這邊大概畫出這三個角色的可能關係, 但在實務界更多的是一個人當三個人用, 也就是你甚麼都要會, 最後大概變成一個人要會的東西是成為下面這樣:
雖然說大部份的人能夠做好一項就很了不起了, 但真的最好須要這三項領域的專才的人, 通常不是一個人做到, 而是至少三五個人去架構與協調出來, 只是在台灣是不用太期待.

而在這次鐵人賽的緣故, 我大概規劃了一個 "成為資料工程師最初的 28 堂課", 因為有太多人對成 Big Data / Data Mining 有興趣, 而不知道如何下手, 花了 30 天 (包含導言與結論) 列出了 28 堂課給大家參考, 雖然說是 28 堂課還不如說是 28 個科目, 只是最後發現 28 真的太少了, 所以有些科目還合併在一起.

這 28 堂課除了最後一堂外, 也是把課程分程三部份:
  • 電腦相關 (Hacker)
  • 數學與統計相關 (Mathematician)
  • 社會人文相關 (Domain Expert)
每一類別有 9 科, 下面就是列表:

電腦相關


把這些知識打下基礎, 真的有實作的能力, 才是這社會最缺的, 也才是這社會推進的原動力來源, 每一個人都想個當管理者, 每一個人都想當個出嘴不動手的專家, 最後沒有人動手, 只是真正的價值應該是實作出成果為前提阿, 雖然之後的管理, 行銷是讓價值更高, 可以把成果的價值乘上好幾倍, 但若沒有這基礎做出東西的話, 永遠不會有第一個 1 出現, 因為若沒有了 1,  0 乘上 100 還是 0 阿.

所以我們就應該先當那個 1 (The One) 吧.

* 圖一來源: http://www.slideshare.net/ckliu/z-b-38495724
* 圖二來源: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

2014年10月25日 星期六

如何找到你網站/部落格最可以賺 CPA 的網頁

雖然說 CPM (曝光式廣告) 還是有存在的價值, 但已經慢慢失去其角色, 而在這系統完成的同一天, BlogAD 也宣告停止營運, 雖然不是說部落格廣告已經沒落, 但至少肯定的是部落格部份的 CPM 廣告已經快沒市場了, 其中有幾個很重要因素.
  • 部落格的流量本來通常就不大
  • 部落格的價值在於影響力, 只是看流量跟本是踐踏部落格的價值
  • 許多廣告系統透過 Re-marketing, RTB 等等技術提升 CTR, 此時再只講 CPM 就失去意義
只是部落格不賺 CPM, 還能做甚麼嗎? 自然大家會想到的就是 CPC 與 CPA.

在 Adsense/Adword 的進步下, 可以從內容方向判斷出那些廣告是合適的, 因此 CPC 已經達到一種境界, 但網站最有價值的不應該只是如此, 應該是更有人性的 CPA 才對.

一個網站由於有不錯的文章, 帶來不少的流量與效應, 此時應該可以肯定 CPA > CPC > CPM 才對, 只是 CPA 不是那麼簡單的事, CPC/CPM 可以靠聯播網來達成, 但 CPA 真的要做的好, 還是要有人下去操作才對.

而昨天在跟某兩位朋友聊天聊到, 的確這是很好的出路, 但這邊有幾個問題存在:
  1. 如何找到自己網站最受到讀者注意的網頁
  2. 找到合適這內容的商品
  3. 如何串接起商業模式
我那位朋友慢慢的把第二點與第三點串起來, 這部份須要有足夠的 Sense 及執行力與經驗, 對我那朋友不是問題, 只是第一點是很麻煩的事, 此時我就想到網事 (web.mas.ter.tw) 可以用其架構解決其問題.

而網事是一個透過 GA 來去做網站 SEO 建議的平台工具, 而一個有價值的網頁, 至少是合乎一點:
有足夠的吸引力讓使用者進到這個網頁
此時就可以用 GA 的 API 來做計算, 從開站的開始每一週每一週計算出能夠讓使用者搜尋進來的落點頁的訪客數, 來定義那些網址有足夠的價值去尋找更高的 CPA.

這邊還須要討論的地方, 就是 SEOKPI 是以月為單位, 而網事是以天為單位, 通常以天為單位容易受到極端失準或看不出來, 但若是用月為計算單位又不夠即時, 所以這是我第一次用週為單位計算的系統.

這個系統目前是在網事的子系統, 自然要先設定才能執行網事, 不了解的可以看 "網事知多少, web.mas.ter.tw 啟動" 這篇, 然後按下 "有價搜尋" 之後, 第二天才能看到資料, 當然若是之前沒有使用過的, 就可能要等到第二天才能夠按下去, 但之後就是每週隨時可以來檢查上一週進度, 如下圖:


接下跑出來的就會像下圖:


從上圖來看, 大概就是若去年我應該直接去跟 PQI 談 CPA, 且當時好像他們有看了我文章做了些改善, 但是最須要的功能並沒有完成, 所以我本來想要寫篇文章褒揚最後作罷.

但大家應該透過這工具, 就可以很即時且自動化的幫你找到你的網站是那篇作品是最合適去賺 CPA, 只是這只有幫助大家第一點, 而接下來的兩點: 找到合適內容的商品及串接商業模式, 須要的話我可以幫你介紹, 這樣讓大家寫部落格或做網站能夠多一點收益, 而能夠持續有好的處作, 這才是我最希望看到的結果.

熱門文章