IMHO, 黑貘來說: 3月 2014

2014年3月31日星期一

打卡現民意, 凱道與立法院在 330 當日約有 33000 人打卡!!

3 萬 3 千人, 或許大家覺得沒甚麼, 因為無論就黑島青所說的超過 50 萬人, 或者警察說的 12 萬人, 33000 人真的不算甚麼.

但若我跟你講, 紐約時代廣場當日打卡數也只不到 2000 人, 平常人來人往有 1000 人打卡的台北車站, 當日加上有另一場遊行也只有 1500 人時, 甚至我說, 在今天之前, 凱道這幾年下來, 即使經過洪仲丘遊行等等幾次活動, 也只有 3000 人次打卡時, 那你知道這 3 萬 3 千是多麼困難的了.

尤其我們都知道, 在這種情型下, 能夠上線都已經是相當困難了, 更何況你要打卡, 就如同某工程師所言:

是的, 雖然我們沒有達成 30 萬人, 甚至 300 萬人的目標, 但這 3萬3千人也算是種網路的歷史, 肯定是空前的, 其中在六點的時候, 那一小時更有 3000 人在凱道同時打卡, 這不只是一種透過網路來做社會運動, 甚至是透過網路來呈現社會運動.

認真檢視, 雖然我們知道在臉書打卡不須要人真的在現場, 但相對的也不是自動, 而是須要人刻意去選擇, 且在這次活動中, 雖然推動在凱道打卡, 當日有接近 2 萬人響應, 但更有 1 萬 1 千人在立法院打卡, 這說不定是更單純的....

從打卡的時間軸來看, 可以看到不少人先去立法院, 再去凱道, 在 1:00 之前人大多是在立法院, 在 3:00 之前還平分秋色, 但之後凱道的打卡在 5:30~7:30 之間達到高峰, 那時每分鐘都有超過 100 人打卡, 也就是每秒有 2 個人.

在 7:45 時宣布解散後, 從圖表看得出來人數就銳減, 但就現場知道很多人留下來自拍打卡, 在 8:30 時的人數是僅次於那兩小時外人數最多的半小時, 有 1170 人, 而在晚上 10:00 時立法院群賢樓的打卡是當時最多人的, 就可以知道人群慢慢往那邊走過去.

但最大的問題是: 這個打卡能夠如何轉換出當時的狀況? 事實上這因子是很複雜的, 包含:

1. 當時網路的穩定狀況, 造成想打卡的人不能打喀
2. 參與者的結構是否習慣打卡, 其中的佔比
3. 有沒有不在於其中的人打卡

這次的運動是第一次的實驗, 真正要從網路回推現實必須要有更多的資料, 甚至如同前面所說的, 網路只能跟網路做比較級, 跟現實的行為一定會有所變型與轉換的不同, 這就要長時間的觀察.

但, 無論是警方所說的 11 萬人而已, 還是在現場感受到的 50 萬人, 在這邊大家可以自我肯定: "我們又創造一個新的歷史", 這是沒辦法抹滅的.

結果網址: http://ecfa.speaking.tw/protest.php

2014年3月29日星期六

捍衛民主、退回服貿、人民站出來、打卡現民意

在馬總統的朋友中, 所有人都支持服貿..
在江院長的報告書, 沒有人提出不同意見...
在王署長的回答說, 警察完全沒有使用暴力...

現在該換我們站出來, 跟他們講你們是錯的 !!!!

打卡佔領總統府, 立法院, 凱蘭格蘭大道, 讓政府看到我們, 讓世界都知道~~~
無論風雨如何, 無論人在那邊, 只要我們心在這邊, 讓我們大聲說出我們在這邊...

活動網址: 捍衛民主、退回服貿、人民站出來、打卡現民意

雖然說, 我一直覺得我不須要針對服貿的支持與反對, 對於佔領立法院的支持與反對花太多心血, 並不是我不想做, 而是我認為有太多的論證與意見都比我能想到的好太多了, 跟本沒須要我再來補甚麼, 所以我就花心思在幫忙搜集資料, 見證歷史, 打造一個更透明的社會與網路.

但話說, 我也擔心這次的學運就這樣沒有了, 而在明天 330 遊行在即, 此時的我們能夠做甚麼呢?

在昨天時, 因為公視的採訪關係, 有點是硬開一個會, 但心理是想找大家討論如何去幫助 330 遊行呢? 而我最想做的就是找到方法, 無論是用一手資料或次級資料來計算現場人數, 而我跟紅色死神想到幾種方式:

1. 在某些定點做經過的數量統計, 可以用雷射計數系統做到
2. 在某些定點做音量截取系統, 來知道現場的冷熱
3. 在某些制高點, 用 ipad 來轉播, 順便計算人數
4. 用四軸直升機空拍, 截圖來計算人數
5. 用附近交通流量中公車的延遲時間來看現場狀況
6. 用 APP 的 Log 來看現場使用計錄
7. 追蹤附近打卡數
8. 想辦法去 Operator 電信業者要資料 (這是最不可能)
9. ......

想了各式各樣的可能性, 但在 3/28 的晚上, 很多東西都是不太可能即時完成的.

在今天下午, 在去 DSP (Data Science Program) 的捷運上, 在想說最簡單的應該是追蹤附近的打卡數是最有可能在幾小時內完成且有效果, 甚至是種民意的表現, 所以就有了這計劃, 最後就在一面聽大家的發表, 一面在後面偷偷的完成了.

在這幾天很多人問我, 這次的學運算不算是網路的一種最佳實踐, 雖然我說嚴格說是的, 但這次投身學運的許多網路組織都不完全是學生的, 其中包括:

1. G0V 零時政府
2. 沃草
3. 林克傳說玩家公會
4. XDite 的服貿自己審
5. Longson3000 的直播
6. 土狗中隊
7. 服貿事件青年新聞台

等等作品, 還有其他我沒列到的, 前四項是自行開發的, 後面都是用平台來達成, 事實上不能說學生並不會用網路來做學運, 因為要創立平台本來就不是那麼簡單的, 因為包含沃草與G0V零時政府及林克傳說玩家公會本來就不是因為學運才開始開發參與, 而是一直都在做網路公民的平台, 唯一不一樣的大概就是 XDite 這系統幾乎就是 318 之後的原創.

包含 Longson 的直播, 其他的團隊也是一直在使用網路平台, 畢竟想要短時間內學會是較困難的, 比較有可能是直播這種已經成熟的技術, 而學生若是要透過網路, 大概還是以大家既有熟知的平台, 也就是臉書粉絲團, 社團及直播系統, 但因此說這次的學運是靠網路, 只能說對一半, 因為不能用訊息傳播平台是網路就把所有功勞歸在網路, 只是不能不否認網路在這次的各種意見, 評論都具有很大的影響力.

在這些網路媒體, 網路平台在做為傳播, 討論, 訊息討論, 甚至因此能夠突破一些大眾媒體的封鎖, 抹黑, 這個在以前是前所未見的, 就像是茉莉花革命那樣, Twitter 扮演很重要的角色, 而台灣的使用者習慣臉書, 但臉書相較推特來不完全是個很好的大眾傳播媒質的系統, 所以其他系統就必須扮演更吃重的角色, 這跟國外多少不太一樣.

只是經過這樣的事件, 有些人對於網路平台與社群媒體的不適應, 此時又是一種分裂了.

但這篇文章並不是要講媒體與學運分析, 而是想要做個實驗與運動, 透過一個系統, 一個機制, 讓人民的聲音不受到鹿耳的毛茸影響, 能夠被馬聽到 (怪怪的?), 甚至能夠讓台灣在臉書會做的年度打卡排行榜, 讓世界知道除了台南花園夜市之外, 這次的太陽花革命, 透過臉書的打卡, 有這麼多人站出來說出自己的聲音, 這是一個跟之前完全不一樣的網路革命, 甚至用網路來證明民意的可能性.

我知道有些人因為家庭或生活的因素, 無法參加明天的遊行, 但你可以透過臉書的打卡來參與這次的活動, 透過社群網站來證明我們在這邊, 讓他們無法用數字矮化我們, 讓他們無法用 "網友", "鄉民" 來一語帶過我們, 讓他們發現, 我們在這邊, 讓世界知道, 我們都在這邊 !!!

下兩個圖是 "人民力量展現圖" 的截圖, 也就是服貿東西軍嘗試紀錄並幫大家見證這一刻! 就在星期天!

後記, 雖然我們都知道, 當天一定網路會大塞車, 網路會有不穩, 請在出發之前或回家後補打卡, .... 或是在睡夢中打卡....

2014年3月28日星期五

是學運成功還是政府有力, 從社群聲量的變化來看

學運已經到 10 天了, 雖然心情不會像 318 那晚那樣的既激昂又平靜, 現在更多了些不同的觀點, 而上一篇從光譜來看媒體屬性, 而今天來看時間軸的變化.

服貿東西軍雖然是在 3/19 晚上 (3/20 凌晨3:00) 做出來, 但一直到 3/21開始才記錄其間的變化, 而我們來看整理一份表如下:

其中看得出來 3/23 的總統府談化到晚上的佔領(快閃?)行政院是一個最大的轉折, 在那時候形成了一種氣氛:

慢慢的有人開始支持服貿
突然沒有人主張速過服貿
支持佔領立法院稍微變少

這邊似乎出現了一個分岐點, 整個社會已經不太認同那 "30秒" 來決定這個國家, 這三天來的數字高達 98.4%, 而支持服貿的慢慢出現聲音, 且慢慢的邁向 20% 的大關, 支持佔領立法院的人大概也累了, 也正式突破 87% 以下.

服貿東西軍雖然在某方面是跟很多調查比較起來是沒有 Bias 偏差的, 但本質這系統就是個偏差, 因為這只算臉書分享的觸及數, 所以基本上有兩個前提:

1. 會使用臉書的網路族群
2. 其中會習慣分享外部資訊的人

而這個觸及數為甚麼會成立, 是取自於相信人會自動篩選與過濾資訊, 人會慢慢只看只聽自己喜歡的資訊, 也會慢慢的去除自己不想聽及相左的人.

最近我做了一個原本沒想要成為實驗的實驗, 因為覺得一個知名不具的朋友 "李政釗" 他的觀點都很令人玩味, 所以我請大家去追蹤他, 只可惜我不是好的鼓動者, 沒有多少人願意聽我的話, 最後只有 18 個人追蹤他, 這是一個很糟的實驗, 但這不是更糟的結果, 過了 5 天, 我回頭看, 這 18 個人只剩下 2 個人, 其他的 16 人已經立刻不追蹤了, 也就是說人會習慣閱讀跟自己類似訊息這種現像, 比我預期的還要明鮮.

所以透過這樣的實驗, 已經可以證明 "近朱者赤, 進貘者黑" 的假說, 從人看到資訊的觸及率就可以推算這事情的支持度, 跟本還不須要用到甚麼沉默螺漩的理論, 從閱讀過濾, 同儕過濾這種事幾乎就可以證明這現像.

雖然這群人是有偏差, 但這群人不會因為時間有所偏差, 因此我們即使無法從這邊百分百的定義或推估真正民意, 但從時間的變化可以看到這群人意見的改變, 這幾乎是沒有偏差的.

因此從這數字來看我們幾乎可以斷定下面的事:

1. 這 10 天, 支持服貿的人增加了 3~5%, 雖然有增加, 但不顯著, 只是可以確定有增加.
2. 這 10 天, 已經沒有人認為一定要速過服貿, 這數字已經低於 3% 以下, 甚至你說 100% 都不為過.
3. 這 10 天, 支持佔領立法願的人減少 3~5%, 雖然有減少, 但不顯著, 只是可以確定有減少.

這樣本數大約是 100 萬個臉書使用者所發出過訊息所獲得的結論, 雖然跟 1200~1500 萬個臉書使用者還有一段距離, 但就統計調查的原理, 跟這母體比較起來的子體, 幾乎是沒有太大偏差了, 當然真正的偏差是取樣的母體來源, 但這變化是肯定的.

最後, 拉回來這學運有甚麼貢獻呢?

1. 讓大家更了解服貿, 也不會恐懼或美化服貿, 大家會有自己的立場與主見
2. 但相對, 已經快沒有人相信這政府這種不透明的政治操弄方式是對的
3. 學運遲早須要結束, 即使現在支持度還在, 只是政府再不願出面很難平息

雖然這三點我要澄清這些不是數字, 多少是我自己的後設, 理論上若能再套用語意網路的話, 說不定語意網路系統就可以分析出這真正的因子, 希望下幾篇就可以做到.

2014年3月26日星期三

服貿媒體分眾媒體的光譜分析

昨天在臉書的塗鴉牆朋友分享了一個王美恩的"狀態更新":

今天在外面餐廳吃飯，旁邊一桌坐了五六位穿著制服的廚師在吃飯。
老大開講：「我跟你們說，要看警察打人就要看三立，要看學生丟石頭警察受傷就要看中天。」
小廚師問：「大哥，你都不看TVBS喔？」
老大說：「有啊，支持服貿救經濟的要看TVBS，怕有服貿會亡國的要看民視。」
我都放下筷子，對這大哥予以敬意了。
到底還有多少人看得起台灣媒體？

當時我分享時不到 10 則分享, 現在已經 1129 則分享了...

這是一個很有趣的觀察, 真的把 "大眾媒體" 當成分眾媒體來看待了, 這也是跟朋友一直在講的, 在面對媒體 "假中立" 的時代, 我們要了解如何面對媒體的屬性與立場, 才是身為訊息接受者該有的認知與態度.

但這也是一個很有趣的思維, 服貿東西軍是兩種意見並陳的系統, 所以我們可以從系統來看媒體的光譜:

在解讀之前, 要了解的事是這些資料不單純指媒體的立場, 而是媒體的立場經過網路使用者在臉書的分享之後, 其中的則數與觸及率數字.

在這圖的 X 軸指的是對 318 學運的支持度, 100 則指的是被網路分享的訊息中 100% 支持學運相關立場, 其中包含支持佔領立法院, 反對黑箱服貿, 反對服貿的立場, 相反的 0 則是完全沒有支持 318 的立場, 包含反對佔領立法院, 支持速過服貿與支持服貿的立場.

從這圖表來看, 第一眼就可以看到中央社與中國時報(中時電子報)是 0%, 也就是完全站在政府的立場, 相對完全站在民眾(?)立場的就有很多新媒體與像苦勞等非營利組織的媒體, 但意外的是這次天下可能是因為天下評論的關係, 100% 站在支持學運這條線.

只是網路最大的兩個主流媒體蘋果與 ETtoday, 通常大家以為蘋果會較為資本主義, 但最後有接近九成是站在學生這邊, 可能是因為即時新聞的關係, 而ETToday 新聞雲居然是稍微偏向府方的意見, 這是超乎大家的印像....

而就大家使用的媒體, 影像的部份 Youtube 是在這次媒體運用最大的媒體, 且極度偏向 318 學運, 而Slideshare 則是只有 Youtube 的三分之一, 而有六成偏向府方意見, 但 nownews 與商周, 則是七成五跟支持服貿, 或許這沒甚麼意外.

但最詭異的雖然自由時報在這次的光譜是 7 成 5 支持學運, 但這數字跟蘋果日報接近 9 成還是有明顯差距, 還跟風傳媒的光譜差不多.

最後是 ptt.cc 與 disp.cc 這兩個鄉民媒體在臉書社群是分居 3, 5 名, 且都是 9 成以上支持學運, 其中 PTT 更是 97.7%, 這是沒甚麼好意外....畢竟網路社群媒體屬性最大的偏差是對反對方是有利的.

而大家想要看最新的狀況, 可以去 http://ecfa.speaking.tw/medib.php 來閱讀, 這是否跟你想的一樣嗎?

2014年3月20日星期四

服貿東西軍 -- 從大家貼的連結來看民意

在去年, 透過林克傳說, 曾經做個實驗, 就是 "了解你與你的朋友是在支持同志或尊重同志", 透過連結分享的計數來知道大家的想法, 這次在服貿也嘗試這樣做看看, 只是把議題不只是限制在服貿, 還包含對立法院議員諸公的行為以及佔領立法院的行為來看支持率.

這聲量不只只是去算連結, 而是去算轉貼連結的觸及率, 也就是轉貼的次數越多, 越多人轉貼或被追蹤人數越多人的人轉貼, 聲量就會很高, 所以只是看連結的網頁, 往往是種類似 "媒體" 的觀點, 相較聲量就是有點 "社群" 的思維, 所以從下面的表來看, 支持服貿, 支持速過服貿以及反對佔領立法院的訊息並沒有很少, 但社群聲量的觸及率差距就會較大.

六項統計見下:

目前反對服貿有 51 連結, 聲量 134355, 占比 89.2%
目前支持服貿有 16 連結, 聲量 16188, 占比 10.8%

目前反對黑箱服貿有 25 連結, 聲量 81307, 占比 90.4%
目前支持速過服貿有 8 連結, 聲量 8657, 占比 9.6%

目前支持佔領立法院有 54 連結, 聲量 94029, 占比 90.6%
目前反對佔領立法院有 18 連結, 聲量 9713, 占比 9.4%

這些都可以從服貿東西軍看得到, 且這數字是一直會變動的, 因為隨著文章的增加, 以及轉貼的增加, 這都好像在做某種投票的味道. 只是真實狀況如何, 多少還是有些偏差, 其中有兩個因素最明顯:

1. 社群的意見通常有反威權的傾向.
2. 有時分享連結不見得是支持而已, 也會有可能是批判與反對.

當然這兩個現像的屬性是相反的, 而這兩個到底是那個比較強, 這就要有更多的觀察才會知道.

但事實上做服貿東西軍真正的目的不是為了去做支持率比較, 真正的目的是想透過這樣的系統, 讓大家了解大家各面項的想法, 而不是承現一面倒, 無論是大眾媒體或社群媒體, 只要是單一窗口, 就很明鮮是只有一種觀點居多, 就像是想從一個想法來達到公正客觀是不太可能的, 任何言論都有其方向與立場, 唯有總合所有的觀點與想法, 把這數量極大化, 才有可能 "趨近" 於公正客觀.

所以服貿東西軍是想要讓大家看到各種想法的對應, 對照, 從最新或最多人看到的排序來獲得更多的資訊, 讓我們做出更好的判斷, 透過這樣的決策與判斷, 來去對社會與公眾事務來更了解, 甚至透過這樣的轉貼來表達你的立場, 呈現 "真正的民意", 而不只是靠 "名嘴", "發言人", "意見領袖" 等來做決定.

因此更希望的是, 從這樣的資訊閱讀, 你可以找到你最認同的觀點, 然後推播給你的朋友, 並描述你的立場, 透過這樣的討論, 更強化其聲量, 此時民意又會更彰顯, 這樣才是真正的民主, 才是真正的政治.

服貿東西軍: http://ecfa.speaking.tw/imho.php

2014年3月19日星期三

服貿跑馬燈, 以及尋求協助....

在這種看似乎人民的力量有一步進展的同時, 也是想以自己的專長進份心力, ....

在此時就想把規劃許久的 "Come out, As we speaking out....." 出櫃表態系統完成, 所以打算明天下午到晚上在忠孝東路的伯朗咖啡找個地方開始 Co-Work, ...

因為林克傳說本身就已經是以連結的資訊傳遞為出發, 透過資訊閱讀的取向來決定一個人的傾向, 然後做出從社群做出發的議題強度, 以及正負評的半自動化機制, 這個剛好也是在上星期完成了初步的架構...

沒想到這幾天不只是 CANO, 文林苑的事不是剛開始就是還沒結束, 此時又跑出服貿這種荒腔走板的事...... 真是有種 "We didn't start the fire" 的無奈阿....

Anyway, 若對透過表態(或出櫃)來參與政治有興趣的人, 大家一起來玩吧, 林克傳說現有的基礎是很好的借力點, 但真正的目的是希望經由了解自己, 了解朋友, 進一步了解社會到參與社會這樣的機制讓我們創造出不一樣的政治與社會.

在去實作這系統之前, 會有幾個子系統須要組合出來, 我在去買可樂的路上, 就想到可以做一個 "透過林克傳說撈取大家正在臉書討論服貿的最新進展", 此時 "服貿跑馬燈" 的流程與系統架構就出來了, 所以在趁這半夜的時候將之完成.

雖然是只花了不到一個小時就有了基本雛型, 但此時想到我離 Front-End/UI 已經很遠了, 所以到最後只做了一個爛爛的 "服貿跑馬燈" ( http://ecfa.speaking.tw/ ) 做 Demo, 此時我就請 Even 來幫忙, 但發現還是有幾個環節沒辦法湊起來, 且精神即將不濟時, 建議先做個 JSON 丟出來讓大家到處鑲嵌在任何地方, 我也覺得是不錯的主意, 所以就將之完成後, 把資訊丟到 g0v 看看有沒有人想跳坑.

但這只是一個基礎, 能夠讓大家討論的資訊還很多, 事實上我更希望的是透過這樣的事件, 讓大家更認真的去建立一個系統去發揮人民的力量, 透過社群資訊的呈現, 讓大眾媒體無法掩蓋或洗腦, 透過民意的呈現, 讓政府不敢一意孤行, 這才是對的政治.

圖例取自: http://link.que.tw/groupchart.php?gid=57
服貿跑馬燈: http://ecfa.speaking.tw/

2014年3月18日星期二

九項如何建立有效商品推薦系統, 所須要知道的進程導引與架構指南

任何電子商務類型網站, 除了商品上架外, 一定會問的是如何銷售, 當然這些一定是架構在商品的功能與消費者的須求, 雖然有時透過行銷的手法, 來 "創造" 出商品功能與消費者的須求, 這些通常會創造不少業積, 但在很多狀況可能造成 "消費錯誤" 的機會有時會更高, 雖然感覺一時有業積的進來, 但最終也不是一個好的消費體驗.

所以就會有人在問, 以一個電子商務型網站的通路, 到底要如何推薦給消費者對的東西?

不得不否認, 最後賣場主打的一定是高利潤, 高銷售, 或者是跟廠商配合商品, 畢竟就商品操作人員能力有限的情型下, 人力限制是最大的瓶頸, 因為一個好的商品操作人員無論就市場敏感度, 商品本質, 銷售方式與對市場的知識與品味, 往往會決定一個商品最後的銷售狀況, 如何把這能力透過系統去覆制是每一家公司都想追求的事.

但事實上以目前的技術來看, 在面對少量商品與少量客群, 有經驗的商品操作人員還是無敵的, 只是我們面臨到的問題是:

1. 真的有經驗與能力的商品操作人員真的很少
2. 電子商務網站面對的是大量的商品與大量的客群

也就是說, 好的人才的確是最稀少可貴的資源, 而在這前題下, 我們應該設計出甚麼樣的商品推薦系統來輔助銷售呢? 事實上很多人在被 Data Mining (資料探勘) 與 Big Data (巨量資料) 的洗腦下, 想到的大多是這些道聽徒說的方法, 但事實上完成這些系統都不難, 只是任何系統都有很多前題與成本, 以及最後產出的效應, 甚至更應該說, 人有趣的地方在於多元, 每一個人的須求都不一樣, 所以推薦系統也該不一樣才對, 想要追求一個完美系統這樣的邏輯是很危險的.

那我們來分幾個層面來去導引大家去實作推薦系統:

I. 分類系統 (標籤系統):

分類往往是人在搜尋東西最直覺的方式, 由多到少, 由上到下的分層分類法在人類的思維大概是種本性, 當然比較早期的模式因為儲存方式與成本是用階層式的分類系統, 現在主要是用網狀標籤系統或者是單純的 Tag 系統, 這都是行為輔助的聚焦方法, 非常符合人性, 說是沒有用是說不過去, 因此若沒有一個基礎的分類或標籤系統, 就輸了一大半.

2. 排行榜:

當有了瀏覽與購買行為出現之後, 接下來就是排行榜, 畢竟, 人的行為不是具有共通點, 不然就是會有群眾效應, 或者是經過媒體廣告行銷等催化的結果就是排行榜, 越多人買的東西往往代表有一定的趨勢, 這個在不是網路行銷時本來就很有用, 但畢竟在早期資源有限, 無法分群與個人化的前提下, 排行榜多少也是唯的方式, 所以無論是沒有排行榜資訊或只有排行榜資訊, 是件很糟糕的事.

3. 分類排行榜:

當然前面兩個方法都是有用的, 加起來也一定是有用的, 且當分眾之後, 理論上資訊會更正確, 因此若是沒有更好的推薦方式之前, 用這分類與排行這兩個基礎是相當簡單且好開發的, 只是這差別是在分類要多細緻, 或者是說可以用在其他的的方, 例如搜尋結果頁之類.

4. 消費者背景 (因子分析):

分類可以對產品作切割, 消費者也可以從背景資料 (Profile) 來看你的產品是否有對到 Target Audience, 當然這部份可以用先驗的刻板印像來去執行, 也可以用因子分析來做檢驗, 當確定其目標客群後, 就可以用此 TA 來做推薦, 這算是最基本的差異化行銷, 只是這因子的切割再怎麼切也無法切到單一個人 (Individual), 所以是有局限的.

5. 關聯分析:

前四個推薦系統都是不須要做到 Data Mining 的方法, 而關聯分析可以說是第一個基礎, 從距離 (Distance) 到關聯分析 (Relation Analysis), 而在 10 年前之前, 關聯分析所須要的設備與資源是相當龐大的負荷, 但現在的今天, 已經是相當簡單就可以完成的, 所以現在已經是很多有在做電子商務的必備功能了, 這個最大的決策點只是算出 ROI, 理論上技術門檻已經不會像之前那麼高了, 只是前提還是要有開發能力的人或找到對的廠商而已.

6. 關聯系統再應用:

有了最基礎的關聯分析, 能夠發展的應用就很多元了, 關聯只是個基礎, 經過幾次關聯的疊迨與交叉比對, 能夠延伸出更多的關聯, 或者是聚焦到更精確的商品, 當有不只一個商品的記錄, 就可以算出更準的推薦, 或者是找到更多與消費者類似的消費者, 從中也可以算出最新即時的建議, 所以透過這種方式, 就可以在一定時效內找出一定數量的商品推薦, 唯一的問題是如何決定商業邏輯.

7. 語意網路:

上面這些都是不須要有太多的前置作業或外部資源與環境就能開發的系統, 但商品推薦若透過關鍵字或 Tag, 甚至透過語意網路的切割與分析, 可以把推薦的準確度再次提升, 只是這系統要先行建立語意網路, 要建立一套有意義可應用的語意網路資料庫, 往往是須要很多時間的資料累積, 以及一個系統化的流程設計, 加上語意分析, 在關聯系統沒有足夠資料前, 說不定是更準確的

8. 社群資源:

在一個好的 Big Data 設計, 不只是靠 Data Mining, 也不只是靠 Semantic Web, 有時須要的更大的資料庫, 就是更多的社群資源, 透過商品與消費者的社群資料, 往往能夠獲得比電子商務網站現有資料大上百倍萬倍的 Big Data, 若能夠把這些資源串連起來, 不只是更精確的可能性而已, 而是能夠兼具開發新客源的能力, 只是這個不只是要有能夠了解與開發這些系統的人, 更困難的是如何建立起 BI (Business Intelligence) 才是最大的挑戰.

9. 個人單品預測:

有了這些資源, 事實上要去做到單品個人的銷售機率已經不是難事了, 也就是說幫消費者提供最佳的決策參考已經不是夢了, 雖然現在已經可以實作, 甚至準確度都比前面都來得更高, 但在量與規模的資源耗用可能不合 ROI, 除非是在可預期的未來讓成本降低到一定程度, 或是產品本身的價值夠高, 才有實作的價值.

事實上這九點本身有些就是 "組合技" 或是 "基本技", 有些可以再延伸, 例如 "協同過濾與推薦", 就是種應用社群資源以及關聯分析的組合, 大部份背後的技術都並不困難, 或者是說, 做出來並不困難, 困難的是在提升準確度, 只是就實務面是每一項做出來就有 10% 的準確度, 加起來就有 90% 了, 而想靠單一系統做出這樣的準確率是很難的... (事實上不能這樣算, 只是用這樣說明好理解)

所以若是在總營業額或毛利率不高的話, 當然前幾項做出來就好, 但相對的是個很大的市場價值時, 每一項都要花多一點資源做得更好, 更準, 畢竟每一項雖然看起來很單純, 但在參數與適用範圍須要去研究與改善的點還是相當的多, 這些都是須要去開發與驗證, 但我相信投入一定有回報, 為使用者多想一點, 對商品多了解一點, 就可以設計出很好的系統.

希望這份指南對一些還沒經歷過這些事的人有幫助, 實作過的人就當參考吧.

(原標題: 商品推薦系統, 有時並不須要從 Big Data 開始)

訂閱：文章 (Atom)

2014年3月31日 星期一

2014年3月29日 星期六

2014年3月28日 星期五

2014年3月26日 星期三

2014年3月20日 星期四

2014年3月19日 星期三

2014年3月18日 星期二

熱門文章