2013年12月26日 星期四

玩遊戲作公益 -- Humble Bundle

我們知道買遊戲有下面幾個麻煩:

1. 買遊戲最麻煩的是買了之後, 沒有保存好就不見了
2. 明明有買這個遊戲, 但只有 PC 版沒有 Mac 版
3. 過年回老家想玩遊戲, 但又沒帶在身上

當然還有更新的問題以及 Linux 遊戲版本的問題, 這個都有 Steam 幫你解決了, 但前提是你必須要去接受 Steam 的 DRM (Digital Right Management) 的機制, 也就是要定期登入授權的問題, 所以接下來去思考:

有沒有可能有不須要麻煩的 DRM, 要輸入的密碼等等的事...

這個 GOG 也幫你做到了, 但我們知道遊戲平台慢慢轉移到 Android 以及 iOS, 及 PSN 之類的系統, 此時覺得 Steam 與 GOG 還不夠...

此時有一家公司推出了:

1. 遊戲授權不只給你 PC 版, MAC 版, 還給你 Linux 版及 Android 版, 買一次四種享受..
2. 有些是真的 DRM
3. 還給你 Key 跟 Steam 連動, 你買了就可以在 Steam 下玩
4. 捐錢就可以讓你玩遊戲, 且你可以自己定義要給那個單位, 甚至不要給 Tip (小費)
5. 只要買的人夠多, 不只遊戲是 DRM, 甚至你可以拿到原始碼

我想大部份的遊戲公司聽了一定覺得瘋了, 但的確有這樣一家公司在做這樣的事, 就是 Humble Bundle.

當然這家公司用自己的 Android App, 讓使用者來突破 DRM 的透通, 但更重要不少都是當紅的遊戲, 如下圖:


上面三個遊戲, 你只要捐任何錢, 就可以獲得, 而只要捐超過 4.38 美金, 還可以獲得全部的八項遊戲, 這遊戲不只是可以下載到 PC/Mac/Linux, 也包含 Android, 且也可以在 Steam 下玩, 也包含原聲帶給你...

這還不算甚麼.... 這週跟 Puppy Game 合作, 只要捐超過 3.59 美金, 就可以獲得下面四款遊戲, 且捐總數超過 150K, 這家公司還願意把程式碼給你, 現在已經到 120K 了, 因為快截止了, 所以在百忙之中快速寫這篇來推動這件事...


由於大部份都可以透通到 Steam, 且很多價格跟 Steam 一樣或更漂亮, 不妨來這邊找找...

忘了寫網址: https://www.humblebundle.com/

2013年12月11日 星期三

如何在你不知情被自動加入粉絲團的秘技, 以 "粉你的" 作示範

在做訪來客 (不是林克傳說) 時, 我跟幾個人討論到一個有趣的粉絲團, 叫 "粉你的", 這不是一個很有名的 "占人便宜" (用非授權的文章而宣稱是使用者轉貼) 的網站, 但有趣的是不少人加入這個粉絲團, 而甚至有不少人宣稱他們沒加入這個粉絲團, 包含我自己.

我是那種 "裝不熟 魔/貘 人", 當然要我去按個 "讚" 我是百般不願意, 所以連我有按 "讚" 我也嚇一跳, 有人認為會不會是 "漏洞" 造成, 因為那時候臉書的漏洞新聞是時有所聞, 所以最後大家認為純脆應該是臉書有個漏洞, 或者是使用者不知情的按下不該按的鍵.

果然有人就發現這篇文章的右上角的放映圖示跟本是假的, 因為只要連到這頁就會自動播放, 跟本不須要按鍵, 而按下去時, 你就被騙了, 變成對粉絲團按 "讚", 如下圖:


 仔細看原始碼, 還真有趣阿, 如下面兩個圖:



當然我沒有仔細去追這部份的程式, 但明顯的是用 Mouse Click 轉導到 FB 的 Like, 你以為按的是播放, 但事實上按的是到 "讚", 你自然就變成粉絲了, 這方法果然是不擇手段阿....

但我寫這篇不是叫大家去使用這密技, 而是趕快去檢查你是不加入了不該加入的粉絲團, 例如這個 "粉你的", 絕大部份都不是原創內容, 而這種作為是不是犯到你的底線, 就快點去 "退出(點這邊)" 吧...

PS: 找到這個密技的不是我, 是某不知名同事林育聖, ...

2013年11月27日 星期三

不, 你不可能不歧視同性戀, 但你的下一代可以...

只要是有文化, 只要是有歷史, 只要是有種族, 無論是人類 (或是魚人) 都很難擺脫歧視與被歧視的經驗, 而這經驗, 往往會根深蒂固, 很難改變, 甚至是不可能改變, 畢竟這些岐視的劃分與刻版印像都是從成長經驗所造成的, 因為所學, 所思, 所想, 所行為的都是如此, 要一個人不再岐視別人有時是比登天還難的, 但不代表我們要繼續岐視下去.

因為, 這個 "階級/劃分" 往往原是社會想要維護制序與保護權力所須要的, 當這個須要慢慢鬆動, 或威權體制慢慢鬆動與瓦解, 或者是另一股力量慢慢形成時, 這個矛盾點就會發生, 這個岐視與當時的社會發生許多衝突與扭區, 也會發生很多矛盾現像, 當有些人站出來說, 不對, 這樣的去區分是不對的, 事實上大家都是一樣時, 雖然一開始的確是會很混亂, 畢竟既有的典範會被打破, 只是當原本的保守派不得不接受改變的力量時, 因為這岐視所發生的特權或權利不公平現像才會得已解決...

的確, 要你們去不要岐視同性戀, 不再認為這是罪惡, 這樣的事是不可能的, 記的曾看過一句話: "當這學界真正認同相對論, 而不再依賴以太(Ether)為絕對坐標的重要, 並不是原本主張者改變主張被說服, 而是他們知道他們只能接受, 而一直當這社會的新進越來越多人接受相對論, 而原本的人逝去, 這個社會才會都認同相對論是對的".

此時不禁讓我想到 "費雪泰格 (Fisher Tiger)" 在臨死之前, 也不得不承認這樣的歧視一直存在他的心中, 而他知道自己無法擺脫這樣的枷鎖, 但他更知道我們是要建立一個不再歧視的世界, 是要讓我們的下一代不要再有岐視與被岐視的經驗, 並不是任何一方要去抹殺任何一方的存在, 更不是要讓這種壓抑與憤怒傳給下一代.

的確, 我們這一代還是不少人相信 "建設不能停", 即使會讓一些走上絕路, 更相信一個 "成功" 是架構在社會地位以及資產, 也認為一個 "君君臣臣父父子子" 的社會框架才是對的, 即使在我們好不容易脫離 "膚種", "省級", "男女", 等之間的岐視, 事實上我們的社會還存在很多岐視, 而我們並不認為我們是在岐視, 是因為我們只是認為這是 "優劣" 與 "對錯" 甚至認為這是 "罪惡", 這就是真正的 "岐視" 阿.

是的, 我們的確是可以用理智說服這個時代已經來臨, 但對於多數的人來說, 他們是對這樣的世代有很大的恐懼, 認為這樣的社會只會更亂, 對同性戀還是相當恐懼, 但你的確可以站出來說, 對的, 我是有恐同症, 但這是錯的, 因為, 這個社會更重要的是愛, 而愛是有很多種, 100 種人有超過 10 種對愛情不同的觀點, 而性別與性取向難道會只有 10 種嗎?

但更重要的就是接受與生活在一起, 而我們有些人已經錯過了這樣的光陰, 但不代表我們的下一代還是必須生活在充滿岐視的社會之中, 我們的社會, 存在太多霸凌的事了, 而這些都是源自於不平等, 岐視, 暴力, 而我們應該很清楚的知道, 現在是誰在霸凌誰, 性別與家庭的框架是最常見霸凌的藉口與理由, 學校對於性別認同與性向若跟社會不一樣的小孩, 往往是最先被霸凌的對像, 若這社會能夠真的把愛延伸, 這樣不是更好嗎?

事實上這次多元成家的衝突, 我並不擔心會無法通過, 因為即使現在沒辦法通過, 過了五年, 十年, 二十年我相信人類的自覺一定會通過與接受, 只是難道我們還要讓我們的下一代再痛苦與爭扎個五年, 十年或二十年, 難道我們不能放下自己的岐視去接受自己這一代的包袱嗎? 我最擔心的反而是當這社會慢慢更多元時, 的確我們會更不安, 但我們不應該是去讓這不安延續, 而是讓下一代了解: 是的, 你們是更可以做自己, 不像我們這一代.

雖然你可以不接受同性戀婚姻, 也不須要你接受, 但為了下一代, 不要讓他們繼續岐視與互相憎恨, 才該是我們要做的事.

2013年11月19日 星期二

[林克傳說] 話題發燒度 -- 第一個真正的產品, 不是副產品 (Link Quest)

有在追我臉書的人都知道我最近在做林克傳說, 這是一個用來讓大家知道現在臉書分享連結的分析系統, 其中完成的過程是:

1. 以個人做出發, 那些訊息是我朋友分享最多的, 依一定週期的次數次序來排
2. 目前系統所有人在一定時間內塗鴉牆分享數的排序 (A)
3. 從分享連結的網站, 來看這個人的閱讀息性 => 資訊來源偏離度
4. 我的朋友中, 各個屬性的排行榜 => 想知道誰真正的本質嗎?
5. 計算出真正的熱門話題的擴散性, 而不是只是算分享數的轉換 (B)
6. 我應該找誰討論 => 從閱讀網站的屬性找出跟你最相似的閱讀者
7. 計算出話題與真實臉書的比例轉換公式 (C)

其中有一個相同的 A => B => C 就是從分享數算到熱度算到真實的比例, 這過程看起來簡單, 但也花了快 3 個星期 (從11月1日做到現在), 而我之前說的, 這七個子系統, 都只是 "副產品", 真正的第一個產品應該是:

"系統是否能夠即時的提示我那些資訊變熱門?"

雖然這個在以 "個人" 為出發的前提下, 不是個好系統, 但對於 "資訊匱乏恐慌症候群" 的患者, 是一個很大的福音 (?), 這也是第一個有 Notification 的功能, 更也是最值得做成 App 的資訊.

這系統是讓使用者選擇 10%, 20%, 30%, 50% 之類的比例, 這比例指的是 "這訊息出現在使用者塗鴉牆占所有使用者的比例(台灣)", 當某個分享超過這個比例就會出現在這列表當中, 當然這也可以做成像訊息列那樣, 有已讀與未讀, 所以更可以做個功能: 放大絕 (所有設成已讀), 這樣我相信一定可以讓病情 (資訊焦慮症患者) 降低一些些...

當然就我的個性我不希望讓系統成為 "單向度/同質性" 太高的閱讀行為, 所以一定會以個人做出發, 只是現在是在做觀察, 因為在我認知的訊息密度一定是介於一個可以調整的系統:

1. 一天一則最值得看的訊息
2. 一天十則最值得看的列表
3. 一週10則最值得看的清單
4. 一週只看一則有甚麼最值得看的

除了讓人可以選擇訊息密度外, 且有三個選項:

1. 全部相同的觀點
2. 依你閱讀習慣的觀點
3. 更有價值的觀點

這系統自然是希望完成第三點, 但也是最困難的點, 因為這個 "價值" 有時是很難定義的, 因為這有時會遷涉到價值觀等的主觀判斷, 但也不是說完全做不到, 例如可以用 "你期望的典範 Role Model" 來去趨近 (Approach), 當然現在系統已經一步步完成, 在第二點還在做微調的情型下, 第一點是最簡單可以完成的.

我相信很多人到現在已經看得霧煞煞, 那麼單純的一個 "分享" 數數系統可以變得那麼複雜, 這也是 Data Mining (Big Data?) 困難的地方, 看起來很簡單, 但須要很複雜的流程才能做到, 看起來那麼不可行, 確又可以用 "量" 去產成出有 "質" 的東西.

這也可以證明一個真的可以實用的系統, 在做出之前, 的確可以做出不少有趣的 "副產品", 往往有這副產品的經驗, 才可以讓真正的主產品完善, 尤其是這種大量資料的計算, 就像是我之前有提到, Facelab 的這個 Project, 要做出能夠真的靠臉來判斷人的工具, 真的在實用化之前必然有很多 "副產品", 之中最有名的就是 "Meet the world's Mrs Averages: Scientists blend thousands of faces together to reveal what the typical woman's face looks like in 41 different countries from around the globe" (41 個不同國家女性的典型長相) 這個成果, 所以這篇文章用的圖是這個 Lab 10 個成員的 "Average Face".

當然有 Average, 也要去講 "Unique", 所以原本這網址要改名的, 但最後還是延用 que.tw, 只是取的不是 Unique, 而是 Quest, 因此也真的真除 "林客傳說(探索)" 這計劃名.

寫到這邊, 又忘了給大家網址: http://link.que.tw/new.php, Have Fun!!!

2013年11月13日 星期三

臉書話題榜 -- 林克傳說, 一個 Big Data 的實務經驗

雖然說, Big Data 無所不能, 無所不在, 但前提是要先做出來, 只是在做出來時, 所須要的環節與經驗太多, 而這次我以在做林克傳說, 一個可以算出台灣臉書熱門話題排行榜, 並進一步分析你個人閱讀的偏好, 以及建議的系統實作經驗給大家做分享.

我在臉書上說:
這個系統源自於 2007/2008 年樂生事件給我很大的感觸, 當時透過 Plurk/Facebook 等 SNS 收到資訊, 覺得整個世界被樂生洗版, 但事實上對大部份的民眾是完全不知道這回事, 一直等倒 2008/2009 因為選舉關係主流媒體批露才被大家知道, 此時發現 SNS 會造成資訊獲取很大的謬誤. 
在之間提了很多次, 也規劃很多次計劃, 想要解決這樣的問題, 做出一個媒體觀察與使用者建議的系統, 但最後都不了了之, 因為這邊有幾個困難點:

1. 要搜集各個新聞平台的內容資訊做分析
2. 要能夠計算了解到讀者怎看這新聞
3. 要有以新聞字詞為主的語意網路

單單這三點都不是一個小系統, 甚至又是一個可以獨立為 Big Data 專案的事, 而事實上像這樣的系統, 一開始的系統分析就往往跟你習慣的方式不太一樣.

Big Data 的很多 V 其中有兩個是 Variety (多樣性) 與 Veracity (真實性), 通常在系統規劃中, 最常遇到的就是開 Spec (規格), 但由於 Big Data 的資料源本來就是來自於各個地方, 與其說有 Spec 還不如在面臨成千上萬個 Spec 中, 你不可能定義出一個準確的規格書? 不要說拿不到, 事實上也不存在 (每天都有人在變動), 即使你以為很單純的東西, 事實上沒那麼單純.

這跟一般人在做軟體不一樣, 甚至在做網站也不一樣, 在這個如此多元的資料格式, 不穩定的資料源來實作, 若沒有去接觸真實的資料端, 很難去了解與面對這資料的困難度與複雜性, 且加上這系統本身應該是由資料開始去規劃, 然後往想要解決的目標去進行, 在某方面是這種 Down-Top 的設計思維, 須要的是 "實作的能力" 以及 "目標的認知".

在這實作的經驗中, 我把過程分成幾階段:

搜集資料: 如何透過公開內容去搜集與建立字詞資料庫, 如何透過 API 去抓使用者資料, 這些不只要面對 "格式", 更要解決 "方法", 其中還有一個可怕的環節: "臉書最難捉摸的API" 可以說是被這事折騰了很久.

儲存資料: 在某方面, 這是須要很多 Know-How 的, 但相對的也是較為單純的, 因為通常儲存資料都是在自己這邊, 選擇那些資料庫, 那些儲存與讀取方法雖然是跟系統有關, 跟資料使用方式有關, 只要有經驗問題都不大.

除錯資料: 如同前面所說的, 格式來源都不穩定的情型下, 如何判斷那些資料是正確的, 尤其在 Big Data 中, 最須要的是 "Aggregation", 也就是聚合, 把相同點找出來判讀成一件事, 例如要找出那些網址事實上在說同一件事, 這在實作過程中是遇到最多的調整工夫.

計算資料: 通常說計算資料有時候是最簡單的, 因為這些 Know-How 只要多看幾本書就可以了, 尤其是在模型的判讀, 選擇與檢核要有能力, 但這也是最吃能力的, 因為沒有選對好的演算法與模型, 很多事情都很難真的準確, 我也還須要在這方面有更多的學習.

呈現資料: 這呈現資料不是單純的 UI, 或是 Visualization, 還包含資料在不同的使用情境, 須求有不同的觀點, 在這系統我實作了不少方式, 但最後也有發行後發現更好改善後放棄的, 也就是說 Presentation 呈現是面對 Scenario 情境多元時要如何選擇這議題, 這也是系統最後功能決勝點.

解讀資料: 有時系統做出來時, 會出現超乎你預期的結果, 有些可能是單純有 Bug 錯誤, 有時是演算法不夠解讀, 但更有可能的是必須在透過人的解讀中, 找到新的發法或開發新系統, 這也是所謂 Data Scientist 的能力差異之一.

在經過這幾個 Data 環節中, 一步步往目標前進, 單單這個系統, 離最初的命題大概是 100 分中已完成 3~4 分, 也就是連 5% 都還不到, 雖然現在已經做到一件很重要的事:

"已經知道台灣臉書熱門的話題是那些"

雖然這成就已經解開, 但也至少要有 20 個以上的成就解開才勉強可以道白金殿堂吧, 加油吧, 林克....

後記: 本來覺得這是老生常談, 類似的觀點已經寫不只三次了, 但看到 CK 一直在寫相關文章, 尤其是這篇 "資料分析的三個層次", 看了我有很大的感觸, 因為要完成這樣的事情, 真的須要 Read the Data, Read Between the Data, Read Beyond the Data 的能力阿.

2013年11月10日 星期日

了解你與你的朋友是在支持還是在尊重同志....

在觀察好一陣子的熱門話題, 發現這次多元成家的議題熱度一直延燒, 但到底熱度是如何, 或者是那一方的支持群眾比較多, 該如何用數量去衡量, 此時我就有點好奇了, 因此也就用這議題寫了一個程式來做分析.

在 "林克傳說" 有一個很重要的立論基礎, 就是 "近朱者赤" 或者是 "近貘者黑", 但更重要的是, 相信人會不自覺得選擇與過濾與自己相同與相反的言論, 所以對最後都只剩下不會與自己本身個性或意見差太多的言論.

就像是我剛剛有一個朋友, 被我發現他的社會批判性比我預期的還強, 他就說一定要低調, 但我說在這種系統的演算法觀點, 低調是沒有用的, 畢竟算的不是他的言論, 他的分享只占他與所有朋友總數分之一而已, 即使發言有所選擇, 但無法去控制別人說的或自己看的東西.

就像是人會自我審查 (這又是另一個人說的), 人眼中的資訊會影響你, 相對的也是你在對他投一票,  有時人的行為本來就可以分很多層次:

1. 閱讀
2. 按讚
3. 搜尋
4. 留言
5. 分享
6. 發表
7. 行動

這七種層級各有其數量級的差異, 無論是數量與效力, 當然每一種媒質在這幾種行為還是有差別, 在計算與轉換都不太一樣.

Anyway, 這篇文章不是要討論這議題, 只是給大家一個基本了解.

這系統是算你與你的朋友分享的資訊中, 有多少比例是 "支持" 同志或其他的多元成家, 還是 "尊重" 同志認為社會傳統秩序更重要的, 在這邊雖然我不表明立場, 因為我更希望大家知道這系統的背後意義.

但我也知道系統的實作即使是種觀察, 但也是種社會宣示, 即使我在這雙方爭論不直接表示立場, 但我也說: "我們可以透過系統去更了解自己, 朋友與社會", 這也是這系統的初衷之一, 如同在系統後面的 Quote:

但也不要以為選擇較輕鬆的路是對的, 就隨波逐流, 人云亦云
這社會倒底是要維持單一有秩序的社會, 還是讓每個人可以選擇自己的路
很多事決定在我們的選擇, 這系統能做的就是讓你有更多資訊來選擇

畢竟單單做這個系統, 對我而言也是種社會工作阿, 而我的所謂社會工作只能對我期望的社會做付出, 而不該是去假設 "大好 (Greater Good)", 因為這樣會抹殺別人做社會工作的價值阿~~~

記: 這系統的工人智慧是由 梅子 提供, 感謝她...

阿, 忘了說, 網址是 http://link.que.tw/glaad.php 感謝 Ken Hsu 提醒....

2013年11月5日 星期二

今天臉書上很紅的兩個藝人, 張懸與郭采潔, 來看議題的不平等性

今天臉書上有兩個藝人很紅, 一個是說 "My Hometown" 的張懸, 另一個是 "悍衛傳統道德" 的郭采潔, 因為她們的表態, 造成臉書很大的風波...

這兩件事剛好都是 "言論自由" 很好的例子, 一個是 "中國" vs "台灣" 的意識問題, 一個是 "主流基督徒" vs "同志支持者" 的意識問題, 這兩個陣營在不同地區都有不同的勢力, 都有自己的支持者與反對這, 在臉書這樣的社群都有不同的效應.

這議題看起來都差很多, 但有一個共同點是: 有一方不贊成(甚至想抹殺)另一方的存在, 也就說這不是個對雙方都是對等的議題, 而是若某一方支持若成立的話, 另一方就失去立場, 我們估且說成甲方與乙方:

甲方: 表面尊重乙方, 但認為乙方不該擁有跟甲方相同的權利
乙方: 想要擁有跟甲方平等的權利, 但受到既有特權的壓迫

在這次的事件中, 剛好兩個藝人身處不同的甲方與乙方, 雖然說在社群中, 因為社群有偏向弱勢的慣性, 乙方通常得利, 但甲方通常擁有優勢, 畢竟這議題原本就是乙方想要獲得平等的題目, 代表原本乙方是屈於劣勢, 所以甲方很簡單的可以用 "不該討論", "維持既有" 的手段來運作.

在這邊對應的是:

兩岸議題:
甲方: 不應該討論政治議題, 台灣本來就不是獨立的國家.
乙方: 台灣擁有自己獨立的政府, 土地與人民, 為甚麼不是國家?

同志議題:
甲方: 我們相當尊重同志, 但同志本來就不應該擁有家庭與婚姻的保障.
乙方: 我們是相愛的人, 為甚麼沒有權力去結合.

雖然說, 在 "言論自由" 中, 不應該是保障或提出 "抹滅對方存在意圖" 的言論, 或者是說 "對方不應該擁有相同權力" 的主張, 不論是基於宗教, 性別, 等等, 事實上這問題早就發生過很多次災難了:

甲方: 德意志民族是最優秀的種族, 相對劣等的猶太族沒有權力活在世界上.
甲方: 男人本來就是擁有智慧的社會支柱, 女性跟本不須要接受教育.
甲方: 黑人是無法自我學習的人種, 很合適於當奴隸.

在這邊並不是要去把那一位藝人去 "標籤" 成跟歷史上的罪人一樣的立場, 只是要說明這議題並不是罕見, 而是一直存在著.

雖然說, 這兩個議題在雙方各有不同的立場與說法, 我在這邊也沒必要多說明, 因為單單透過我剛寫的 "林克傳說 (暫定)" 就可以看得出來, 這種不平等的議題到處存在, 也包含 "大是大非" 的 "這不是關說不然甚麼叫關說" 的類似議題 (但還是不太一樣).

這樣的議題我並不是要說誰是誰非, 而是要讓大家知道這不是對等的雙方觀點的議題, 而是在於一個不對等的甲方強制乙方的議題, 但我也不敢說這種議題是對是錯, 也包含 "甲方" 到底有沒有強制性 (強制力), 但若甲方認為這是 "平等的雙方", 這就是錯了, 因為甲方擁有既有的優勢, 且目的是要否定乙方的議題, 而乙方即使得到認同, 甲方不會受到不平等的壓迫, 但乙方卻是會的.

因此說, 的確言論是自由的, 但的確有時我們面臨到不平等的言論時, 更該要小心, 就像是有人說: "在台上的人更須要認真的廎聽", 事實上我們更應該要做的是 "平等的對談", 若雙方不在一個平等的立場來 "對話", 而是用既有的優勢來 "訓話", 就很容易陷入 "言論自由" 的謬論.

但, 人身攻擊 或 因為對方的立場來決定其價值 的言論, 更是不可取的另一件事, 這邊就不多說了.

張懸圖出處: http://www.nownews.com/n/2012/09/25/234712
郭彩潔圖出處: https://www.facebook.com/photo.php?fbid=10152304415196521&set=a.10151956470266521.1073741825.111171231520&type=1

下圖為發文時的臉書外部分享排行榜:



2013年10月22日 星期二

資料革命: Big Data, Linked Data, Open Data, Data Mining 五講之一 (Data Revolution)

在這幾年, 到處都是在講 "Data/資料", 到處都看得到 Data, 其中最有名的就是 Big Data, Linked Data, Open Data 與 Data Mining, 這四個感覺起來都是獨立的議題, 但某方面都有其共通性, 而這五講要講的不是每一個單一的議題, 而是這些之間的關係, 這些不同與相同點, 以及現在與未來的可能性.

在一開始要講的是, 甚麼是 Data Revolution 資料革命, 也就是說, 資料到底過去與未來有甚麼不一樣, 這不一樣的特色在於那邊, 這邊就讓大家了解一下. 其中為甚麼我們不講 "資訊/Information" 而是講資料 (Data), 當然見人見智, 但在某方面的觀點 "資訊" 這名詞已經在社會有特化的定義了, 這樣反而會模糊真正我們面對 "資料" 的溝通與態度, 用這種最基礎的方式強掉資料的流程與邏輯是對的.

資料革命代表的是我們在革命之前與之後處理資料的差異, 這差異包含幾點:

1. 資料的透明與透通 (Data Transparency): 資料革命最大的差異就是資料不再封閉, 而是具有 Open (開放) 與透明的屬性, 這代表資料不是只有引用, 而是可以串通連結的.

2. 資料的來源, 量, 時間與效率的差異: 在 Big Data 中不只是速度, 多樣格式, 量的差異, 更重要的是在處理資料是更廣泛的, 包含透過機制 (Infrastructure) 來串接即時的資訊, 更重要的透過即時性對未來做決策輔助.

3. 擁有權與使用 (Owenership & Usage): 資料革命代表資訊擁有權不再限制為管理者或政府, 會更為開放到人民皆可使用, 且使用的範圍應該更廣, 在分享與授權的機制會更暢通.

4. 權利與隱私權 (Rights & Privacy): 資料的透明與透通本身就是種權力與隱私, 關係者可以參與跟決定應用範圍, 包含使用者各個環節的權力, 包含生產者, 收集者, 儲存者, 管理者與傳遞者.

在某方面甚至應該可以加上 Social Data Revolution, 也就是說這些資料很多是用在社會的資料, 而且在於使用情境上都會有不同的價值與應用方式, 人在這邊的資料都是息息相關的.

在國外, 早在 2011 年就提出過, 大家可以去參考 Leding Edge Forum 的 DATA rEVOLUTION, 其中下面他把資料革命前後的差別用個表呈現出來, 我覺得很值得參考, 尤於其中比較著重 Big Data 與 Data Mining 的技術, 所以我在原本的 11 點又加了 5 點上去.


1.  Data as a fact of Life vs  Data as a factor of production: 資料原本只是呈現生命與真實的表相用的, 而進成資料本質就是是產生變化的要素.

2.  Collecting vs Connecting: 資料從原本單向的搜集, 變成雙相的連結.

3. Analyzing vs Prediction: 原本資料是用來分析用, 來證明原本的觀察與假設, 但革命後可以做到預測, 甚至可以未來決策使用.

4. Information vs Insight: 資料原本只是資訊而已, 現在更能洞察出一些見識.

5. "One version of the truth" vs Multiple sources and perspectives: 從原本想要靠一個版本的真理, 演化成透過不同觀點的來源來看事情.

6. Structured vs Unstructured: 原本資料只能處理結構化的資料, 現在已經變成非結構化都能處理.

7. Relational vs Non-relational: 資料與資料庫的結構與處理方式原本都必須要有關係來拆組, 現在已經不須要或不是.

8. Centralized processing vs Distributed parallel processing: 原本是中央性的處理中心才能處理資料, 現在已經變成分散且平行的處理.

9. Terabytes vs Petabyes, exabytes, ...: 資料從 10的 12 次方 (TB, 千億位元組) 到 10 的 15 次方 (PB, 百兆位元組) 甚至更多的資料.

10. Analytics as niche vs Analytics for everyone: 從原本狹礙專業專職分析, 到現在每一個人都可以做分析.

11. Limited participation vs An era of experimentation and innovation: 最初能夠參與跟實踐的範圍是相當有限, 現在進一個實驗性與創新性的領域.

12. Closed vs Open: 之前的資料是相當封閉的, 現在則是相當開放.

13. Period of time vs All time: 原本在做分析只能做有定區間的計算, 現在則是所有的歷史資料都能派上用場.

14. Human involve vs Automation system: 之前在處理資料不少都須要經過人主觀的介入, 而現在是一個自動化的客觀系統.

15. Time gap vs Real time: 之前資料的處理是有時間差的, 現在則是即時的資料.

16. Offline or online vs Offline to online: 原本現實的線下資料與線上處理有很大的差距, 現在已經可以整合.

上面說的這 16 點, 是融合了 Big Data, Linked Data, Open Data and Data Mining 四個領域所產生的資料革命, 這些都不完全獨立而都有其關連的, 但從這邊可以大概描括出這四個 Data 觀點的關係.

我相信在網路上已經有不少這四種領域與議題的文章來介紹, 而我這邊不會再多做重覆的工作, 將會以資料革命來串起這四個之間的差異與特色, 以及目前與未來, 也包含很多人目前的盲點.

(按: 圖片取自 http://www.faforever.com/ 透過 http://www.fotor.com/ 編輯而成)

2013年8月15日 星期四

為甚麼 SEO 須要 Notification 及 Dashboard

當要開始寫這篇文章的開始時, 剛好在臉書看到一個新聞: "備用電源失能84天無人知 核三廠亮核安白燈", 其中有一句話蠻經典的: "這起事件,不是故障, 只是失去功能", 當然這句話看在反核的眼裏是件令人啼笑皆非的事, 好像在說: "這些問題, 只要知道有問題, 就不是問題", 當然這個問題是為甚麼人沒有人去注意到有問題.

在我當顧問的公司, 我一定 "鼓勵" 公司弄個電視牆, 來做 NOC (Network Operation Center), 而每一個人都會問到: "這畫面只要打開電腦就會看到, 為甚麼一定要放出來給大家看?", 這也就是上述問題最大的問題, 即使我們知道只要看了就知道, 但當你要主動去看的時候, 這個主動遲早就會被其他更重要的事給排除了, 簡而言之, 你即使能規劃出再好的 SOP (Standard Operation Procedure) 時, 但到了實務面往往有很大的差距.

我不客氣的說, 網路的複雜度比核能發電場更複雜, 任何一個環節出問題, 往往就會有失效或失效能的事情發生, 所以大家也知道要建立一個好的 NOC 是相當重要的, 但我常看到太多的 NOC 只是放個 TOP (效能監控) 在那邊而已, 事實上一個正確的 NOC 的 Dashboard 應該是要有紅綠燈, 有歷史指標, 更要有未來預測與指引.

也就是說, 當你要時常 "主動" 去檢查一個物件是否失效, 若當這物件不是 Mission Critical 時, 過不久就不會有人檢查, 往往是當出事之後, 有人才會說: "這起事件,不是故障, 只是失去功能", 系統沒有壞, 只是沒有啟動, 而 SEO 的細節真的要執行也是會有上百種, 甚至有些不是能夠一眼看得出來, 若你想依賴 "人事" 去做唯一的解決, 遲早就會面臨須要講出比台電更荒謬的狡辯.

嗯, 這篇文章不是講反核, 畫錯重點了.

當做出 Web.mas.ter.tw 時, 我就說這個雖然整體而言是 Dashboard, 雖然說不定是目前看到最好的 SEO Dashboard, 因為我現在在做 SEO KPI 時, 已經不會花太多時間在 Google Analytics 及 Bing/Google Webmaster Tools 了, 直接看 http://web.mas.ter.tw/ 是最快的, 但我知道我還是把這系統定位在 Dashboard Component 儀表版元件, 因為真的要做好的話, 還有更長的路, 且一個好的網站經營者, 不只是只有看 SEO Dashboard.

除了 Dashboard 外, 重要的就是 Notification System 警示系統, 而一個好的警示系統更不是你要 "主動" 去查看, 而是應該是直接跳在你的眼睛前方, 也就是說你平常在用甚麼東西, 一個 Notification 就應該嵌進去, 是必須比 Cheklist 更即使且更有相互合作與稽核的能力的機制才對.

因此網事的第二階段就是跟 Facebook 等社群協作平台做結合, 你平常在用甚麼系統與機制在 Co-Work, 就應該透通過去, 因為 Notification 要跳到你的眼球前面, 前題是你眼光是在那邊, 我們知道最難獲取 (Gain) 的就是 Eyeball....

所以網事當算出有新關鍵字方向值得經營時, 原本只是一個 Table 讓大家去看, 現在已經寫出來讓你可以在算出來的那瞬間, 即時 Post 到你的秘密社團, 然後大家一起討論如何經營這關鍵字, 現在已經有幾家我在顧問的公司開始在使用, 甚至已經透過這系統討論出可以做的事, 這才是我真正認為一個好的 Dashboard 不是讓你檢驗過去而已, 而是讓你去規劃未來.

當然在未來, 尤其是 Big Data, 因為資料量越來越大, 想靠早期的 SOP Checklist 來做事已經越來越不可能了, 因為 Checklist 往往很難 Co-Work, 而一個公開的 Dashboard 可以讓大家一起來稽核, 資料直接在 Group Discussion, 是最好的協同合作模式, 所以我很難想像一個說已經開始做 Big Data 的單位, 他還沒開始用 Dashboard 或 Dashboard 沒有好的 Transparent 或 Notification, 只要他做得越大, 往往代表 Lost 的也越多.

而你們呢?

2013年8月1日 星期四

關鍵字觀察

說到關鍵字, 這個部落格已經被占滿了大部份吧, 雖然明明我還有一個部落格專門講關鍵字, 但連我自己都忘記了吧.....

而這次說是新功能也不是, 因為嚴格說只是個中間產品的功能, 但在想說應該會有人有興趣就公開, 畢竟這種資訊本來就是公開的, 但只是經過不同的解譯與呈現吧...

先說為甚麼我要做這個, 主要是兩個原因:

1. 在半年前有個 web.mas.ter.tw/網事 的計劃, 是對 Google Analytics 做延伸的解讀, 但因為介面一直還沒做好, 我在想應該利用 SNS 去做 Notification, 而現在台灣人用最多的還是臉書, 所以這種資訊還是丟去 FB 較實際.

2. 最近在重新整理 語意網路/Semantic Web, 其中一個就是把詞庫再次延伸, 而在還沒想出好的 API 來 Open Data 時, 把 Google Trends 的資料就用臉書的粉絲團公開給大家用, 畢竟這個不像前面的網事計劃有權限問題.

因此在這時間點就把這系統完成, 成立粉絲團給大家使用.

因為我一直認為, 語意分析的本質在於對語意網路的建立, 其中一個很重要的是新詞庫, 一個無法自動或半自動成長的詞庫實用價值很低, 就等同你用說文解字來看現在人用的語言是很糟糕的, 而在網事計劃做出來後, 一個自我內部的成長詞庫就出來了, 但大眾使用的詞庫還是要靠 Google/Yahoo 來建立.

很不幸的雖然 Google 很久以前有 RSS Feed 讓大家讀取最新的每小時排行榜, 但現在已經停下來轉成 Google Trends 了, 而 Google Trends 抓取最新的關鍵字, 雖說是隨時更新, 但實際是三小時一次, 且最後只有當日的排行榜, 只是這已經是很不錯了, 因為 Yahoo 並沒有提供類似的資料源, 只有在網頁上呈現一次天整理兩次的熱門關鍵字.

有趣的事是 Yahoo 倒是有個推薦搜詢, 而這個多少跟熱門關鍵字相關, 只是感覺出來多少有商業背後在運作的可能性, 以及只是某種辭庫的輪播, 雖說如此, 還是有實用價值, 尤其是在 Yahoo 輸入法已經沒有在維護時, 至少還有個可以抓資料的來源.

而臉書粉絲團關鍵字觀察目前是即時 (半小時內) 把 Google Trends 作分析, 把最新出現的關鍵字自動貼上去給大家看, 並不是貼完整的排行榜, 畢竟真的要看還是自己去 Google Trends 看比較完整, 但對於現在已經資訊暴炸忙碌的大家, 我覺得大家在自己的臉書看到經過整理的即時資訊是很重要的.

除此之外, 在想也是要放出 Yahoo 的資訊, 只是 Google 的資料已經累積一大段時間了, Yahoo 才剛開始, 而這兩個資料庫是否要整併或用甚麼方式處理我還在思考, 但還真不知道有誰跟我一樣會對這種資訊有興趣.

有興趣的就去 "https://www.facebook.com/lookkey" 按讚吧, 這句話應該是第一次我叫人按讚阿, 但若不是這樣還不知如何訂閱阿....

(寫到這邊還想到有 RSS 訂閱阿.. https://www.facebook.com/feeds/page.php?format=atom10&id=169938509860826)

2013年7月1日 星期一

民主之推手 vs 運動之流氓

在樂生的時候, 我觀察一個有趣的現像, 就是在社群網路平台處在一個資訊流非常有趣的狀態, 尤其是在於我們對網路的想像是: "網路是自由的(至少在台灣?)", 但在許多人被樂生事件洗版(占據所有社群網路)的時候, 有些人即使是社群網路的熱衷使用者, 但還是可以完全不知道樂生所發生的事, 雖然我應該肯定能看到我這一篇文章的人應該沒有不了解樂生始末的人, 尤其這遠是在選舉前發生的事, 且當選人所說的空話(我們一定會審慎評估).

最近也有一件事悄悄的發生, 不, 在某些人眼中也是大事件, 就是郝伯村受到 "某某團體" 的邀請, 以民主制度的守護者來暢談民主的過程, 當然這在很多年輕人眼中是件非常荒謬的事, 自然就會有不少年輕人到場抗議, 無論是否是有舉大字報或布條的, 或是直接高聲抗議的, 當然這些還是獲得下面的回應:

「下次我們會考慮加入提問時間」

「我知道學生有立場」

「今天場地要關了,我們也還有下個行程,必須要離開。」

這大概是那天最好的註解吧, 無論這個是否跟民主是否有關係, 是否郝伯村到底是否是民主制度的守護者沒有關係, 雖然在我眼中, 郝先生想要透過這樣在台灣民主進程漂白是件一群擁有資源者想要運作的事, 因為身為一個軍人, 他應該洛守的立場本來就是 "守護者", 所以在我眼中, 他已經好不容易擠出這句 "民主制度的守護者", 代表已經是經過沙盤推演且可以自圓其說的台詞了, 因為前面民主這兩個字, 是完全可以亂入(自我宣稱)的, 例如:

威權體制的守護者: 身為蔣氏的軍人, 自然是他們的守護者

戒嚴的守護者: 若沒有軍人, 我相信台灣的戒嚴會更早結束

民主制度的守護者: 沒有他們在守護台灣, 台灣那有現在的成果

台灣獨立的守護者: 說不定過幾年他會宣稱說沒有他們, 台灣早就被共產黨統治了

世界和平的守護者: 至少在他當政的時候, 海峽兩岸沒有發生戰爭, 這功勞也不會說不過去

所以郝先生要被稱為 "民主制度的守護者", 就 "閱讀空氣" 的定義是: "恰到好處", 當然這邊的自稱或宣稱是怎樣, 本來就可以認同, 也可以反對, 雖然真正的問題不是在於是怎去說, 而是怎麼說, 也就是應用甚麼資源的方式去說, 若郝先生他最後跑馬燈時認定自己是如此的偉人, 你也不可能說: "不, 你是惡魔, 該下十八層地獄", 除非你想化身死神之類, 但若有 "某某組織" 想要透過活動與演講, 來去做漂白, 你想站出來說話, 這對不對呢? 事實上也是我想寫的.

因為至少在我眼中, 郝先生真的可以說得過去他是 "民主之推手":
事實上郝先生當然可以談民主, 我們經過職場都知道, 很多事情的功勞都在最後一個有決策權的反對者最後放棄, 他變成 "讓這件事得已進行" 的功勞者... 他在台灣民主過程身為最後一個反對者也是很接近答案阿....
上面這句話是我一看到這活動時的第一想法, 因為在職場久了, 很多光怪陸離的事也都看過, 尤其是有些人已經完全無法生產了 (自我產生價值) , 此時他就要想辦法自己的價值時, 就是成為別人生產的獲利者, 而如何獲利呢? 比較好的方式是幫助有能力的人, 最後做出來再分一杯羹, 但對於那些沒有能力的人, 連幫助的能力也沒有的時候, 最簡單的方式就是 "阻止有能力的 人", 畢竟做這樣有好處, 除了讓對方無法出頭去威脅自己外, 最重要的是當你有這掌握關卡的能力的時候, 別人想做事也不得不跟你稱臣, 最後可以用這樣的權力獲得利益, 即使對方成功了, 你還可以成為 "xxxx的守護者/推手" 也不為過說.

雖然我們不少人都知道這件事, 這也是一直存在的, 但我們即使已經接受, 不代表我們有權力去要求剛出社會的人接受, 畢竟這不是件好事, 因此我是接受學生在這樣的場合做一些事, 但這邊就衍生出一件我為甚麼要寫這篇文章的事, 因為這件事在我眼中早就是這樣的定案了, 沒必要太多置喙, 但當我看到 Peter Hsiao老貓 的一串文章時, 我原本是的確認同這是老貓說的矛盾, 但後來想想不是那麼一回事.

我們來假設兩個場景好了:

A. 當某高中校長在做全校廣播, 希望學生要好好唸書, 聽長輩的話, 成為堂堂正正的中國人, 但有一群學生聽了之後鼓噪, 此時老師叫大家安靜, 說我們要尊重校長發言的權利.

B. 某間大學有個海報牆是很多人經過, 有人張貼了一張大字報, 說現在教官還是留在學校是不妥的事, 後來教官跑來說, 因為他這張大字報沒有經過審核, 為了要尊重其他人發言的權利, 就把他撕下來了.

C. 這場景應該在台灣不會出現, 在某個公園, 有兩個人拿著肥皂箱在講兩個爭峰相對的事, 某一個人相當生氣就叫支持者去把另一個人趕走, 而另一群支持者就說: "我們要悍衛發言的自由".

這三個場景最大的差異是甚麼呢(不小心多出一個)? 這三個場景你會支持誰的說法呢? 這的確看起來都是相當合理的, 因為理論上真正的言論自由是在:

1. 若這是大眾的事, 不應該責難任何一個提出此眾多人想法的單獨個體
2. 不應該因為那個人的身份地位去提高或降低態度, 而必須公平的對話
3. 不應該用言論去區分人既定身份與自身的事, 或去保持不既定的區分
4. 言論自由不包括不存在之事實, 會危害生命與生存的事.

第一件事當然是最單純的文字獄與言論自由要保護的, 第二件事是我們要保持該有的對話態度, 第三件事情是指我們不能用言論去迫害不平等, 而前面三個場景, 是否都符合這三個理論呢?

嗯, 我們不用想太多, 我們直接拉回來 "郝先生" 的演講好了, 我們或許先不管第四點, 前三點是否是在上面適用呢? 應該明眼的人就看得出來, 問題是在第二點, 因為言論自由是保障公平與平等的對話, 而不是保障在 "訓話(洗腦)", 或是任何單方面的宣傳, 而那個場合的問題不在郝先生, 也不在郝先生的言論, 或是任何單方面的宣傳或洗腦, 而是在那種場合到底適不適用 "言論自由".

事實上, 很多事情都是有其意義的, 就像是政令宣導, 就像是商業廣告, 但這個是否是該用言論自由去保障呢? 答案應該很單純, 一個單方面有資本與權力的宣傳, 而另一方面是受眾的弱勢, 並不存在單方面的言論自由, 真正的言論自由很單純的就是 "雙方溝通與討論", 當主辦單位認為: "我們不須要發問與討論, 更不須要考慮受眾的立場", 我不認為主辦單位是認為這是個雙方面的對談, 說穿了就是 "洗腦", 用這種演講來做宣傳, 並去建立自己不存在的形象廣告, 甚至動用不該用的權利去在校園資源, 說要用 "言論自由" 去保障單方面的言論誠實說真的很怪.

相較的, 想要提問的發言, 希望對等對話的學生, 或許才應該是受到言論自由的保障, 但我相信主辦單位可能是這樣想的: "你們這群學運流氓, 跟我這樣的民主守護者跟本是不同階級, 只有我有言論自由, 你們是不配擁有的".

2013年6月10日 星期一

小工具: 臉書 QR Code 名片

會寫這個小工具是有一次我介紹 "紅色死神" 給 "EZprice" 同仁時, 死神說了一句話: "就直接給臉書帳號吧, 加了臉書就可以聯絡, 拿了名片還是不會用", 此時就讓我想起一個讓我困擾許久的問題:

在很久以前, Palm 還流行的時候, PDA (Personal Digital Assistance) 最主要的功能之一就是 "名片交換", 而現在手機已經在大眾市場完全取代 PDA 的情型下, 交換名片反而是個很困難的事, 當時 PDA 透過紅外線或其他方式, 是很輕易的交換名片, 而現在大概只有 Line 的搖一搖有如此方便的架構 (UI 流程) 才勉強比擬.

反倒是現在, iOS 與 Android 變成兩大家 Smart Phone 作業平台, 但通訊錄交換這部份還是拙的事, 尤其是 vcf(vCard) 已經沒有多少人在用的情型下, hCard 也沒能展露頭角, 每一個 SNS 都自認為自己是 Social Network 的唯一平台, 但說要交換聯絡方式的方法到現在還是沒進步多少.

當時我就在想, 好吧, 雖然電子名片已經是個做爛的題目, 但現在的實用的確是我最近才開始用的 "臉書", 至少先用臉書當作名片交換也是件不錯的事..

所以就想說, 如何用手機很輕易的加入臉書呢? 而第一個想到的就是 QR-Code, 把網址變成 QR-Code 不是件難事, 但有兩件事要克服:

1. 如何輕易叫出 QR-Code 的圖讓對方掃描呢?
2. 若是用網址的方式叫出瀏灠器也不是對的方式.

因為若是把這張圖放進圖庫, 要從圖庫找出來讓對方來掃, 可能還不如直接輸入較快, 因此一定要把這張圖可以輕易的叫出來, 例如放在桌面是件很重要的事, 而這個的確是原生的 iOS/Android 無法做到的, 一定要有 App 等小工具來完成, 當然若是把這張圖當成網頁, 把這 Bookmark 書籤放在桌面上也是個最好但也最直接的方式, 雖然說這樣是一定要上網, 但沒上網如何加臉書好友呢?

而在第二天我去一家公司聊天, 一開始交換名片時我想到這張圖還在桌面上, 我就輕易的叫出讓大家掃, 只是接下來的第二個問題是: 這樣是叫出網頁, 但大部份的人都是用 Facebook App 來操作, 網頁不只是不習慣, 事實上大部份都不會登入, 因此這方式也不見得是好的操作流程, 最好是直接呼叫臉書應用程式到個人的名片頁才對.

而在第三天在參加 g0v.tw 的 hackth3n 的閒暇之餘, 我找到了一個叫 Shortcut Image 由日本人寫的小工具, 發現這是很好的開始, 所以接下來的問題就是用甚麼簡單的方式呼叫 Facebook App.

因此今天找了一些資料, 在嘗試過幾次之後, 發現不透過 Web 還真的無法將這流程做很好的介接, 所以就先透過訪來客做簡單的轉接, 而此時這樣的臉書 QR Code 名片就已經有雛型, 最後也順便把 QR Code 也自動化的產生出來了.

目前這小工具是放在訪來客裏面, 大家進去看就有看到了, 若大家真的有興趣使用, 我就花個 10 美金買個 SSL 獨立出來好了, 有誰想 Donate 的呢?

2013年6月7日 星期五

比算命還準的資料探勘: 從次級資料(Secondary Data)來看 Big Data

訪來客計劃是有一段很長很長的故事, 甚至這故事可以回溯到四年前之前的 "樂生療養院" 事件, 但這個以後再說, 若說是有近因是我要做 "Weblog.tw" 的臉書版之前的練習是真的, 但與其說是透過 Home Brew 來做學習, 應該說這是一個臉書上的 Data Mining 的實作, 尤其是在看到 2007~2008 年流行的 "Friend Wheel" 時, 我來想說這種計算朋友之間的 "分群" 與 "距離" 可以說是資料探勘最好的範例.

像 Friend Wheel 要畫出來不是難事, 但真的要去分析與判斷就不是件簡單的事, 這也是資料探勘中, 資料呈現 (Data Presentation) 最有趣的事, 因為有時要從 Big Data 去 Mining 出甚麼未知的可能性是相當困難的, 有時若是我們把資料視覺化 (Visualization) 有時確是 "一見即知", 而要去真的計算有時是不太可能的.

這計劃一開始時構想的很好, 若是我們能夠抓到我們朋友的好友數, 有時就可以從相同好友數來去做第一次整理, 但一開始實作時卻又不是那麼一回事, 因為朋友數本來就是可以選擇性隱藏, 因此原本規劃好的演算法就只好拋棄了, 而只好從可以抓的資料來計算, 這也是資料探勘中最常遇到的問題, 並沒有甚麼好意外的了.

畢竟資料收集 (Data Collecting) 一直是比 Data Mining 演算法還更麻煩的一件事, 所以若因此而讓我們放棄從資料來找到答案的話就太可惜了, 因此最後我們採取了另一個演算法來計算, 雖然這方法有時不見得切實際, 但也不失一種方法, 也因此從這個不得已的演算法中找到另一件有趣的事, 而這個又只能留待以後再說.

所以在當時的計劃雖然遇到措折, 但也不是不能解的時候, 勢必又必須換一條新的路, 也就是說, 當發現原本的計劃是想從朋友的分群來做 "資訊導覽" 的時間成本太高 (計算一個人的朋友族群須要好幾小時到好幾天的計算), 因此就打算分階段來進行, 這也就是 "訪來客" 的開始, 也就是 "你臉書生活的精彩度" 這件事.

因為這個計劃最原始只是想透過 "朋友關係" 來去做 "資訊分類", 因此一開始就打算 "只抓交友資料", 而其他的授權就都不去要求, 想以 "最低的必要授權" 來去完成這計劃, 所以這個 "臉書生活精彩度" 雖然不是簡單的只是計算 "好友數", 但也因為沒有透過其他的臉書活動 (Activity) 去做搜集與計算, 而是純以交友的 "模式" (Pattern) 去推估.

畢竟若我們一開始是規劃出 "透過你在臉書的活動" 來去計算 "臉書生活精彩度", 聽起來是最合理的方式, 雖然這樣也是再單純不過的事, 但事實上所須要的成本與阻力也更大, 畢竟這樣須要的授權更多, 要抓的資料也更多, 就如同前面所說的, 困難點有時不是計算資料, 而是如何去獲得資料.

這也是 "次級資料" 有趣的地方, 所謂的次級資料 (Secondary Data) 就是我們計算的結果, 並不是最原始的資料應用的目的, 但因為事出必有因, 這原始資料若是種結果的呈現, 我們可以用某種計算邏輯與方法, 分析出因子去推論出不同的結果.

(想要真的更進一步了解次級資料的, 可以到 MBA 智庫來看)

但任何計算都應該有其假設與邏輯性, 例如在這個臉書生活精彩度的定義不是在於你的好友數, 而是在於你這好友之間是否有互動 (互為好友), 也就是說若好友能夠成群的話, 代表你在臉書的交友是有其完整性的, 因此可以證明你不是到處亂加好友.

而接下來應該已經有不少人去計算你的 "臉書生活精彩度" 了吧, 若你還沒去計算, 就去試試看, 而每一個人只能看到朋友的資料, 不是所有人的資料, 事實上我甚至也沒寫程式自己去看全部的資料, 畢竟我也是想讓大家選擇這樣的授權與否.

在同時, 我也放了一個彩蛋, 當時的連結叫 "很可怕不要問", 這是一個怎樣的數字呢?

既然我們可以從這些數字來知道那些好友是有意義的 (成群的), 那代表可以從其推論那些好友關係並沒有如此密切, 也就是 "你有那些好友是較為不熟識的", 也就是我當時說的:

"這個人若被不熟的朋友或是陌生人加好友, 他接受的比例, 換言之也包含他去加不熟的朋友或陌生人的機率."

所以後來稱為 "開放關係", 我想應該有人猜得出來這個是採用 "Open Relationship" 的雙關吧, 但跟真的定義中的開放關係是有其相關但不是定義.

當然這樣的計算的確是有意義性, 但也不絕對, 因為每一個人的生活模式都不太一樣, 想套用一個算式與邏輯在任何人是有其局限性與適用性, 頂多只能說這也是種 "觀點", 而不是全面性的, 換句話說, 也是種 "客觀的主觀", 畢竟這種 "指數性" (Index) 在某種觀點只是種 "Eigenvalue", 是種 "簡化" 某種 "複雜度", 當經過 "簡化" 必然會失去一些意義, 而我們在使用這種數字一定要有這種體認.

但也是因為人如此的複雜, 說要很輕易的去了解自己的生活與定位也不是那麼簡單, 所以透過這樣的 "診斷", 在某種觀點還真的是種 "算命", 因為這樣的計算有時還真的看得到原本自己看不到的東西, 但也因為這是真實的數字, 所以絕對是 "準確" 的, 所以說是 "比算命還準" 一點也不為過, 因為這是呈現你的行為, 並沒有去做任何的 "猜測", 說起來只是 "換個角度來看", 所以若是認同可以用這角度來看, 沒有不準的可能性, 真正的問題是: "這角度有意義嗎?"

換句話說, 只要能夠找得到一個合理的邏輯依據, 要從人的行為找到其模型與指數來做判斷不是不可能, 就像是我們不可能輕易知道 "你是否跟那些朋友熟不熟", 但我們就可以從模式套用來計算出一個 "很可怕不要問" 的 "開放關係指數" 結果, 只是有時也不見得有用, 尤其是找不到其關聯性的, 最後還是要從更合理的資料搜集下手.

只是若你看到這邊, 可以感受得到 Data Mining/Big Data 的可怕與局限性, 因為若是有足夠的資料, 要算出下面那些東西不是不可能的:

1. 一個人會自殺的傾向
2. 一個人會買某商品的喜好度
3. 這個價格要多少能夠越多人買或賺越多
4. 明天會去逛某商圈的人數
5. 從臉書可以算出你最合適的工作以及未來路徑
6. 再過幾分鐘你那邊就會下雨

而任何資料都是有跡可循, 可以被推算或推算出甚麼東西, 也就是說, 這種事情可以很有幫助, 但也能會很可怕, 有時在於我們怎麼用, 以及用甚麼心態去用以及被誰所用, 甚至用在警察國家或極權國家, 要算出一個人的忠誠度, 以現在技術比以前更輕而易舉, 就像是水能載舟亦能覆舟, 科技有時會讓我們生活變得更好, 也可能會害了人類, 這是我們大家都已經知道不用懷疑的.

我也只能期待未來人類能夠善用這些資料....

若上面文章真的太長了, 你看下面四句話就可了:

1. 我們有時只能從已抓的資料下手, 而不是最實際的資料
2. 這種指數的計算是簡化其複雜度, 一定會失去一些意義
3. 我們可以視其須要及適用度, 去調整演算法或資料搜集
4. 對於資料的可能性與適用性, 我們還須要一段路來學習

2013年6月6日 星期四

不是 SEOer 的 SEOer 告白: Nofollow Link, Please?

在 SEO 圈的人, 看到我前一篇 "從連結的生與死來談網站連結準則" 知道是為了要回應嚴先生對於之前的連結做探討, 而前幾天有人說他也寫了 "從 Nofollow 看 SEO 的未來" 這篇來做回應, 我當下跟朋友說: "他寫的很好阿", 等等的話, 覺得這篇文章有其論點與方向, 甚至我回頭想一下我寫的那一篇的標題, 還有不少地方沒寫到.

的確, 我會把 "黑帽 SEO" 定義為:

1. 創作沒有人會去看的內容, 沒有意義的內容
2. 建立不受歡迎的連結, 建立不會有人點的連結

這些歸納起來, 就是 Spammer 的問題, 記得我在 "如何用網頁到網頁的延伸閱讀, 取代網站的交互連結" 提到這些 Spammers 讓 Blog 部落格的 "Ping" 從立意良善到沒有人在用了, 也就是說 Jesse 在那篇文章所寫的兩大重點之一:

1. Anti-Spam
2. 自清

Anti-Spam 這件事我已經不太想說了, 因為我早就在那些人眼中是大壞人了, 也因此我也從來不做 SEO 的任何專案, 只有在幫做顧問的公司協助 SEO 以及在 SEO 公司當顧問的主要原因, 因為去跟一般沒概念的公司爭辨甚麼是白帽與黑帽, 不是我能力所及的.

但其中最有趣的 "自清" 這一點, 我看了之後真的讓我覺得自形慚愧阿, 相較作者而言, 我只是一個喜歡從資訊理論與圖書館學去看 SEO 的人, 雖然唸過幾十本 SEO 的書, 也做過十幾個 SEO 系統, 但說實在的, 我自己卻完全不去做 SEO.

當有人問我甚麼是 SEO, 我都會說, "不好意思, 我不是能夠深入淺出的人", 所以都會叫他去唸個至少一兩本有關 SEO 的書, 但我都會說: "書上面所說的方法, 無論是黑的或是白的, 我都不會去做", 也就是說, 我從來不會在我製作的網站去加甚麼 meta-data, 也不會去加 description, 所以, 我真的不是好的 SEOer 阿.

因為我一直相信, "只要做出好的內容對大家有幫助, 且做出好的系統更好去便利使用", 以這樣的觀點去開發, 這是比任何 SEO tricks 更好的 trick, 而這也是我個人最大的實作方式, 這也是我唯一個人在使用的 SEO 技巧, 利用 "Semantic Web/語意網路", 透過 "UX/UI 的改善", 建立 "不同觀點的 View", 實作好的 "技術行銷", 因此大部份 SEO 書上面所說的東西, 我都不會去使用.

因此當 Google 在說 "No-Follow" 的這件事, 我在想說, 我做的系統中, 有那些連結是 "只提及而不背書", 我還在想這到底是在對使用者 "宣示" 還是對 Google "效忠"? 而事實上使用者在看這些文章與內容, 在應用這系統, 早就知道這連結的意義與價值, 何來的 "自清" 阿?

但我也知道不可能要求大家去唸所謂 "幾本 SEO" 的書, 然後消化與實作, 我會花時間在上面, 純脆是我對搜尋引擎的興趣以及對使用者資訊行為有興趣, 而想要透過這種系統實作出對大家有幫助的使用者行為決策資源系統, 跟本跟做 SEO 沒甚麼關係, 我會覺得 SEO 有趣, 是因為 SEO 是種 "內容" 與 "行為" 的一種中介, 這也是我想研究與實作, 因此才會有 "網點", "網智", 等等的系統阿.

也就是說, 我更希望大家在做 SEO 時, 一定要從 "讀者/使用者" 角度出發, 而不是以 "搜尋引擎" 的觀點來切入, 但這個若是做得到, 比任何 SEO 還要困難, 因此就像是在 "台灣搜尋引擎優化與行銷研究院" 所說的, 透過 Nofollow 要來做自清, 尤其是你目前還是照著 SEO 的書來實作, 或者是聽從 SEO 公司的意見, 原作者的文章還是很有價值的.

所以, 說起來, 我的確不是 SEOer 阿....

2013年6月3日 星期一

從連結的生與死來談網站連結準則

曾幾何時, 連結是種尊重與尊敬, 甚至是種榮耀, 但現在, 連結已經在買與賣失去意義了嗎?

基本上在論文的寫作中, 很多人知道教授最喜歡去挑 "參考文獻 (Reference)" 的問題, 因為這樣的宣示往往代表那些是你論文的原創, 那些不是, 但我們也都知道, 絕大部份的碩士論文, 那有甚麼 "原創" 的可能, 而標註參考文獻最大的價值, 是因為你曾做過這樣的努力, 透過這樣的 "連結" 來幫助你看這篇的人, 找到更多的資訊.

因為資訊要成為智慧, 是須要一些過程的, 甚至單一的資訊不太能夠創造智慧, 而是要很多很多的資訊才有智慧的可能, 就像是 "維基", 就像是 "懶人包", 都是種資訊的匯集與發散, 讓資訊成為了解事實的方法, 當了解事實之後, 才能夠進一步的產生價值判斷與行為.

也就是說, 連結代表的是種資訊的傳承與傳遞, 甚至有人說, 文明不是在於人類所產生的智慧, 而是在於傳承, 沒有傳承的知識會隨風飄逝, 即使再偉大也不會被人提及, ....

但把連結說成這麼偉大, 又過於誇張了, 但也曾經有一家公司, 去發現與強調連結的價值, 將之實證與實作, 成為現在大家耳熟能詳的 G 社, 而現在這家公司, 提出 "有人操弄連結的價值", 而去叫大家在使用連結時, 加註 "這不是連結", 來去區分廣告與連結, 我一直在思索這樣是對的方式嗎?

只是與其說這家目前的確是很偉大的公司, 會不會因為做了這樣的事讓原本質疑過他的人更認定 "Do No Evil" 只是個晃子, 但我更相信的有太多人是在做事時, 心中是不存在 "Do No Evil" 的思考, 而以更大的 "正義", "利益" 的招牌做他自己認為可以做的事, 尤其是那些真的讓 "連結" 失去意義的人.

但這意義說起來也沒那麼偉大, 就是這樣的連結與其內容會有沒有人去看, 去使用, 這價值不在於你是不是在連結中註記 "不要連(追蹤)", 而是在於是否以讀者的心態與使用方式去創造與使用連結與產生內容, 也就是在建立這連結時, 你的用心與心態為何?

可是 "心態" 與 "用心" 是最不能衡量的, 就像是想要輕易證明靈魂一樣, 畢竟很多事情雖然本質是最重要的, 但當論及方法論時就不見得實用了, 必須要轉化成準則來實作才是最好的方法, 只是我們必須知道, 任何行為有時看起來一樣, 有時看起來是完全相反, 但其隱藏的心是不能絕對類比的.

我們在做網站連結時那些是對的呢?

1. 連結是內容相關的: 連結在於種將兩件事物做聯繫, 這聯繫的價值在於 "距離", 也就是相關性, 大多是透過關鍵字與語意網路將之串連, 讓原本不在相同空間的資訊透過這樣的連結做延伸, 讓我們可以有更廣的視野.

 

2. 連結是種宣告: 連結在於種所有權的宣告, 包含在製作的目的與精神, 所從屬的組織, 製作的方法與架構等等, 透過這樣的宣告連結, 讓讀者更了解這內容所在的價值與空間角色, 雖然這種連結有時是使用者最少點的, 但也是不可或缺的.

 

3. 連結是針對性的導引: 連結有時候只是種純導引, 可能是購物網站的運費計算方式, 也有可能是種延伸消費與討論, 若能產生意義而導引使用者去看不同的資訊, 這連結就是有價值的.

 

0. 連結是使用者會點的: 無論是前三點說得再冠冕堂皇, 最重要的一個判斷是這個連結是否使用者會去點擊, 若是使用者會點擊, 這連結就有價值, 若是沒有人會去點擊, 則是代表這資訊是沒有連結的價值, 反之一個網站一直有一堆這樣的連結, 就代表不是製作者不用心, 不然就是別有用心.


當然大家會問一個最大的問題, 連結最常會是種有金錢交易的不是 SEO 的連結, 而是 "廣告" 等軟連結 (Soft Link), 這是相當有趣的問題, 但我們知道, 廣告的連結是種具有導引性且使用者會點的連結, 本身並不會有太多的抵觸.

基本上 Google 原本是宣示 "想企圖去操弄連結" 的事, 但最近產生對 SEO 界很大的風暴, 其中甚至延伸成 "廣告是不對的", "付費連結都是黑的", 等等的討論, 而許多人在製作 SEO "一眛" 的去 "假借" G 設的 SEO Guideline, 雖然這指導手冊在我眼中是有問題的, 但理論上已經是可以打擊 80% 以上做黑的人.

但不代表做白的是沒有問題, 畢竟這世界沒有 "非黑即白", 很多事情若是有絕對的 "正義" 那就失去我們生為人的價值, 尤其以前被稱為黑帽 SEO 的是指 Spammer, 也就是用不被歡迎的連結去盜用別人網站的價值, 產生許多沒有意義的內容, 複製重覆的資訊等等的事是被稱為黑帽, 而現在 Google 更直接稱 "買賣連結" 的為 "企圖影響計算" 的黑帽, 甚至是 "交換連結" 的人也算是.

這樣說起來, 可能全世界有 99.99% 的網站都是黑帽了, 尤其是像教育部, 國家機構等最會以 "資訊串連" 去交換連結, 而非 "連結買賣", 而現在透過 G 社的 Guide Line 要他們加上 "nofollow", 在我眼中是本末倒置, 更讓連結的價值加速死亡.

會寫這篇並不是要去對 G 社抗議, 因為他已經大到很難抗衡了, 這篇文章對他們而言只是種 "呢喃", 而是希望透過這篇文章讓大家更正視連結的價值, 包含 "連結買賣", 就像是有人已經說, 不再做連結買賣, 而是把有用的資訊去串連的 "媒合", 而這件事若能做好, 對讀者才最好的.

而我們是否也能夠過這樣的反省, 讓網站製作除了內容外, 透過連結與 UI 來去創作對讀者有更好的閱讀空間?

2013年5月14日 星期二

你的臉書生活精彩度幾分?

有人應該看到我兩三個星期前寫了一篇 "一個表格", 這是一個很有趣的計算, 因為若是我們能夠對朋友做自動分類, 這代表可以從資訊源的差異來去看資訊分類, 只是這個 "分群 (Clustering)" 一直是最麻煩的事, 因此在確定運作之後, 就放在這邊了.

因為隨便一個人的計算, 就好好幾小時或好幾天, 說要讓使用者等到資料的產出是不太可能的, 因此就有了先做一些好玩小工具, 之後再推出這套系統, 而今天做出來的 "臉書生活精彩度" 就是一連串計劃的子計劃.

這資料是從你的好友與你的共同好友資料去做分析的, 計算的基礎有幾種思索:

1. 網路好友的交集代表你在網路生活的密集度
2. 你有多少個 "有一定數量交集" 的好友是網路生活的基礎
3. 好友數越高自然有一定的加乘
4. 總共同好友數越高也會有加乘

因此, 這個不是算好友數這麼簡單出來的計算, 我也在討論放出目前計算的公式:

Count(MutalFriends>min(Friends/50, 40+Friends/1000))*log(Friends)*log(Sum(MutalFriends))

當然這分數有幾個特色:

1. 算的是臉書網路生活, 不是算你全部的生活
2. 有些人在臉書的交友圈都很獨立, 並沒有甚麼其他朋友交集, 此時分數就較低
3. 有些人會有刪好友的習慣, 在某種情型下分數會變高, 也有時會變低 (這不是廢話, 而是要看你怎刪)

目前我在說明是這樣寫的:

30 分以下 => 你算網路人嗎?
30~60 分 => 算你有在用網路好了
60~100 分 => 你是不折不扣的網路中堅份子
100~300 分 => 你已經算活在網路上了
300 分以上 => 你確定你有離開網路過嗎 


基本上正常人應該都是在 30 分到 60 分之間, 事實上我認為 8 成的人都應該是 60 分以下, 當然是包含偶而上網的人, 而你在今天或一個星期類看到這篇文章跑去做, 很少會低於 30 分的, 而 60 分自然表示是在網路上工作或本身就是在網路媒體業.

而超過 100 分的, 已經代表在網路有一定的名聲 ("生活圈"), 不是泛泛之輩, 就像我就不到 100 分, 落在 60~100 分, 而其中超過 300 分的, 我絕不相信他一天在臉書小於四小時, 基本上就去看醫生了... (阿, 有一個就是精神科醫生)

想要去玩玩看的就進 https://apps.facebook.com/frienque/ 看看吧, 右圖是一個算出來的範例, 我把一些我知道比較少在我牆上發言的給 Blur 掉了, 而剩下的我不相信我貼出來他們敢打我, 哈哈~~~

只是算這個須要一定的時間, 可能要多按幾次 "進行分析" 才能夠把資料抓完, 最後就會有 "分析中" 的提示, 此時你就可以去做其他事, 因為要花一段時間才能算完, 這時間大約是你的好友數乘上 1.5 秒, 也就是說你有 200 個好友, 就代表要等 5 分鐘再進來看結果...

有興趣的人去玩玩看吧.....

2013年5月11日 星期六

台菲網路戰(?) 的災情報導... Taiwan vs Philippine Cyber Wars


雖然這次的事件有很多的觀點, 包含大家慢慢知道這種事件已經不是第一次的偶發事件, 算是種集團性行為, 且行之有年了, 但或許因為網路的關係, 或是馬政府的關係大家慢慢發現屏東漁民的辛苦與悲哀.

當然不就政治討論, 畢竟這個討論不完, 只是我在想這樣的攻擊到底有沒有效, 畢竟這種事有時候是挺麻煩的, 畢竟這是種另類的抗議, 基本上我是認為只要對象是對的, 就沒問題, 因此看到有人說想要攻擊菲律賓的醫療系統以命償命, 我就認為這是相當不好的事.

而若是能夠讓菲律賓政府正視這事情, 而不要傷害到人命, 會不會有其他更好的方法我不知道, 但我是在觀察的是, 菲律賓政府真的發現這事了嗎?


一直到 2~3 個小時前看到菲律賓的新聞報導, 他們選舉委員會(?)在投票前夕, 當掉了兩天, 而也知道這是 DDOS 的攻擊, 也來自台灣, 也知道 "the attacks are a reaction to an incident Thursday morning in the seas between Taiwan and the Philippines in which a Taiwanese fisherman was killed by the Philippine Coast Guard, after his vessel threatened to ram the coast guard ship." 這事, 若這事發展到這邊來看, 不是影響民生而是讓那些權力份子傷腦筋, 這的確是該鼓掌.

甚至也列出在今天早上 11:00 無法連線的網站:


Department of National Defense, www.dnd.gov.ph
Department of Foreign Affairs, www.dfa.gov.ph
Department of Interior and Local Government, www.dilg.gov.ph
Department of Science and Technology, www.dost.gov.ph
Philippine National Police, www.pnp.gov.ph
Philippine Army, www.army.mil.ph
Philippine Navy, www.navy.mil.ph
Philippines News Agency, www.pna.gov.ph
Philippine Information Agency, www.pia.gov.ph

也列出目前被攻擊的網站, 這份資料, 跟 "https://dl.dropboxusercontent.com/u/12618422/philippine.html" 原始是一樣的, 但現在這網站已經把預設網址給拿走了.

而菲律賓的新聞報導也找到 Inside 的文章, 來證明這是台灣所做的, 菲律賓也在研究這攻擊所造成的結果, 但能否因為這樣的事也正視這件漁民受害事件, 也有可能最後是用這事模糊焦點, 這不只要觀察菲律賓政府的反應, 也代表這次這種 DDOS 的台菲網路戰真的發生效果, 而上面的列表或許是他們重視的列表吧....


2013年5月1日 星期三

政府開放平台, 測試成功了嗎?

這幾天大家應該有不少人在鼓掌, 至少我也很想鼓掌, 就是我們的政府終於跨出了第一步, 做了 "政府資料開放平臺", 身為我們人民應該給予支持是真的, 畢竟這不只是政府 "英明" 的決策, 更是許多 "民間友人" 的努力成果, 雖然我們沒必要在這邊討論這是誰的功勞, 因為大家都知道, 這是許多公務人員在爭功諉過之外的成就, 所以身為一個平民, 我的手的確有拍下去了.

雖然就政治學面與社會學面, 這是一個偉大的成就, 但就一個工程師的角度來看, 這次所謂的 "公測", 就系統面與內容面是否有達到其標準, 甚至在實用性會是如何, 會有不同的想法, 而這邊以一個開發者, 或者是以我這類型的 "資訊缺乏症候群患者" 的角度來思考, 這個平台測試的是否有成功?

就公開資料而言, 我會有幾點思索:

1. 機讀性: 是否是機器可以輕易讀取與應用
2. 即時性: 是否有時間資料的價值
3. 應用性: 是否有實用且應用的價值

當然應用性這個問題是最無法量化或操作型定義, 所以若是以工程師的角度來看, 至少可以分析判斷的是機讀性與即時性.

機讀是在圖書館學的名詞, 也就是指用機器是否可以輕易讀到, 這牽涉到格式與讀取方式, 而這邊包含的幾個問題:

1. 是否是公開的格式
2. 是否有欄位的定義
3. 是否可以輕易分析

其中我們知道像 TXT 檔雖然是很容易讀到, 但因為沒有欄位是很難分析, 而 CSV 往往因為沒有欄位描述與定義, 也很難去做再次處理, 而圖檔是更不用說是最麻煩的事, 相對的, XML, JSON 都是對機讀是親和的, 而在全部的 239 筆資料中, 不到一半是用 XML 與 JSON, 反倒是不少地理資訊是用 SHP, KMZ 來包裝, 這是值得讚許的, 但除外我也想不出較好的包裝方式.

在時間即時性方面, 有 15 項是有即時 (每10分鐘或每小時或每六小時) 在更新的,  每日更新的也有 26 個 (有 10 個不具每日性), 除外都是以每月每年為主, 這邊可以參考下表.


在看完這些資料, 有幾個想法:

1. 做得最好的大概是氣象局, 文化部, 水利署這三個單位, 無論就即時性, 應用性與機讀性這三個方面都做得相當好.

2. 蒙藏委員會雖然資料應用性不高, 但看起來相當認真, 相對省議會的資料在這邊是用來濫竽充數用的, 感覺是來亂的.

3. 相對的應該有更多資料的環保署, 交通部與經濟部 (主計處) 是可以做得更多更好才對, 但這次並沒有好的表現, 這是相當可惜或值得期許的.

雖然我是個工程師, 但只是個開發工程師而不是專業的測試工程師, 因此沒有對其穩定度, 效率, 錯誤做進一步的檢討, 而是以一個資料使用者的人民來看, 這個系統是否有價值.

只是若這是一個開放平台, 真正的價值不該只有從政府輸出資料而已, 而是人民該用這些資料如何改善自己的生活, 監督政府, 進一步的討論與改變, 甚至不只是單向的資料開放, 而是該更多向的開放資料, 讓資訊變得有價值, 才是 Open Data 的真義.

下面是原始 Google Docs:

熱門文章