在這幾年, 到處都是在講 "Data/資料", 到處都看得到 Data, 其中最有名的就是 Big Data, Linked Data, Open Data 與 Data Mining, 這四個感覺起來都是獨立的議題, 但某方面都有其共通性, 而這五講要講的不是每一個單一的議題, 而是這些之間的關係, 這些不同與相同點, 以及現在與未來的可能性.
在一開始要講的是, 甚麼是 Data Revolution 資料革命, 也就是說, 資料到底過去與未來有甚麼不一樣, 這不一樣的特色在於那邊, 這邊就讓大家了解一下. 其中為甚麼我們不講 "資訊/Information" 而是講資料 (Data), 當然見人見智, 但在某方面的觀點 "資訊" 這名詞已經在社會有特化的定義了, 這樣反而會模糊真正我們面對 "資料" 的溝通與態度, 用這種最基礎的方式強掉資料的流程與邏輯是對的.
資料革命代表的是我們在革命之前與之後處理資料的差異, 這差異包含幾點:
1. 資料的透明與透通 (Data Transparency): 資料革命最大的差異就是資料不再封閉, 而是具有 Open (開放) 與透明的屬性, 這代表資料不是只有引用, 而是可以串通連結的.
2. 資料的來源, 量, 時間與效率的差異: 在 Big Data 中不只是速度, 多樣格式, 量的差異, 更重要的是在處理資料是更廣泛的, 包含透過機制 (Infrastructure) 來串接即時的資訊, 更重要的透過即時性對未來做決策輔助.
3. 擁有權與使用 (Owenership & Usage): 資料革命代表資訊擁有權不再限制為管理者或政府, 會更為開放到人民皆可使用, 且使用的範圍應該更廣, 在分享與授權的機制會更暢通.
4. 權利與隱私權 (Rights & Privacy): 資料的透明與透通本身就是種權力與隱私, 關係者可以參與跟決定應用範圍, 包含使用者各個環節的權力, 包含生產者, 收集者, 儲存者, 管理者與傳遞者.
在某方面甚至應該可以加上 Social Data Revolution, 也就是說這些資料很多是用在社會的資料, 而且在於使用情境上都會有不同的價值與應用方式, 人在這邊的資料都是息息相關的.
在國外, 早在 2011 年就提出過, 大家可以去參考 Leding Edge Forum 的 DATA rEVOLUTION, 其中下面他把資料革命前後的差別用個表呈現出來, 我覺得很值得參考, 尤於其中比較著重 Big Data 與 Data Mining 的技術, 所以我在原本的 11 點又加了 5 點上去.
1. Data as a fact of Life vs Data as a factor of production: 資料原本只是呈現生命與真實的表相用的, 而進成資料本質就是是產生變化的要素.
2. Collecting vs Connecting: 資料從原本單向的搜集, 變成雙相的連結.
3. Analyzing vs Prediction: 原本資料是用來分析用, 來證明原本的觀察與假設, 但革命後可以做到預測, 甚至可以未來決策使用.
4. Information vs Insight: 資料原本只是資訊而已, 現在更能洞察出一些見識.
5. "One version of the truth" vs Multiple sources and perspectives: 從原本想要靠一個版本的真理, 演化成透過不同觀點的來源來看事情.
6. Structured vs Unstructured: 原本資料只能處理結構化的資料, 現在已經變成非結構化都能處理.
7. Relational vs Non-relational: 資料與資料庫的結構與處理方式原本都必須要有關係來拆組, 現在已經不須要或不是.
8. Centralized processing vs Distributed parallel processing: 原本是中央性的處理中心才能處理資料, 現在已經變成分散且平行的處理.
9. Terabytes vs Petabyes, exabytes, ...: 資料從 10的 12 次方 (TB, 千億位元組) 到 10 的 15 次方 (PB, 百兆位元組) 甚至更多的資料.
10. Analytics as niche vs Analytics for everyone: 從原本狹礙專業專職分析, 到現在每一個人都可以做分析.
11. Limited participation vs An era of experimentation and innovation: 最初能夠參與跟實踐的範圍是相當有限, 現在進一個實驗性與創新性的領域.
12. Closed vs Open: 之前的資料是相當封閉的, 現在則是相當開放.
13. Period of time vs All time: 原本在做分析只能做有定區間的計算, 現在則是所有的歷史資料都能派上用場.
14. Human involve vs Automation system: 之前在處理資料不少都須要經過人主觀的介入, 而現在是一個自動化的客觀系統.
15. Time gap vs Real time: 之前資料的處理是有時間差的, 現在則是即時的資料.
16. Offline or online vs Offline to online: 原本現實的線下資料與線上處理有很大的差距, 現在已經可以整合.
上面說的這 16 點, 是融合了 Big Data, Linked Data, Open Data and Data Mining 四個領域所產生的資料革命, 這些都不完全獨立而都有其關連的, 但從這邊可以大概描括出這四個 Data 觀點的關係.
我相信在網路上已經有不少這四種領域與議題的文章來介紹, 而我這邊不會再多做重覆的工作, 將會以資料革命來串起這四個之間的差異與特色, 以及目前與未來, 也包含很多人目前的盲點.
(按: 圖片取自 http://www.faforever.com/ 透過 http://www.fotor.com/ 編輯而成)
訂閱:
文章 (Atom)
熱門文章
-
昨天在臉書的塗鴉牆朋友分享了一個 王美恩 的" 狀態更新 ": 今天在外面餐廳吃飯,旁邊一桌坐了五六位穿著制服的廚師在吃飯。 老大開講:「我跟你們說,要看警察打人就要看三立,要看學生丟石頭警察受傷就要看中天。」 小廚師問:「大哥,你都不看T...
-
我是不做 "Me,too" 的, 但我知道粉絲團經營最重要的共同指標, 一個是觸及數, 另一個是互動數, 但這數字只有經營者知道, 即使從洞察報告可以看到你加觀察的幾個粉絲團, 最近文章的互動狀況, 但還是離真的狀況有點距離, 除外粉絲團可以比較的就是 &...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
這個計劃最出是我交大管科系學長所發生的問題, 因為我寫了一篇文章後, 就跑去 Plurk 跟大家討論, 而他是屬於會使用網路但不會使用 Plurk 的人, 所以跟本不知道 Plurk 講了甚麼, 最後我只好把網址給他, 他才晃然大悟這兩個部份的落差, 所以跟我抱怨這件事, 因此我...
-
這次參與資策會的社群力指標, 在前一篇的講 部落客百傑 的文章已經講個大概, 但我知道很多人看了還是一頭霧水, 其中最主要的一個東西就是 "社群力指標", 雖然這指標明眼的人一看就是我一直在強調的 "Index/指數" 在實用上是很重要的...
-
雖然台灣的資訊科技網站或部落格真的很多, 但仔細看, 不少都是 "全文翻譯" 國外的網站, 不加任何自己的想法, 不然就是為了寫而寫, 此時來看, 不要說是獨立思考的創見已經看不到, 連獨立寫作的內容已經消失了. 這篇文章我早在去年 11 月時就想寫了, ...
-
在兩三年前, 跟 "史公" 聊到一個有趣的問題, 就是他感嘆台灣教育在結構上有很大的問題, 大部份的大學教育, 其課程都想教人成為頂尖的人物, 例如 "李安", 且很多學生也都的確以這為目標, 但我們都知道, 李安在沒當導演之前, 也當過好...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
大家還記得我在兩個月前寫了一篇 " 如何用網頁到網頁的延伸閱讀, 取代網站的交互連結 " 的文章嗎? 裏面談到兩個可能的發展性: 1. 共通 Tag : 這個沒甚麼了不起, Technorati 就是如此, 雖然這是很好的東西, 可惜沒人用了, 只是...
-
當羅技出 G13 後, 我就一直期望能夠玩玩, 而在某天路上撿到一台 G13, 終於可以得償所願阿~~ 上圖是開我原本寫的 N52te 那篇文章, 可以比較看看..... 試用 G13 後, 發現有幾個很不錯或有問題的特色, 當然我是因為跟 Belkin N52te 來做比較: ...