有人應該看到我兩三個星期前寫了一篇 "一個表格", 這是一個很有趣的計算, 因為若是我們能夠對朋友做自動分類, 這代表可以從資訊源的差異來去看資訊分類, 只是這個 "分群 (Clustering)" 一直是最麻煩的事, 因此在確定運作之後, 就放在這邊了.
因為隨便一個人的計算, 就好好幾小時或好幾天, 說要讓使用者等到資料的產出是不太可能的, 因此就有了先做一些好玩小工具, 之後再推出這套系統, 而今天做出來的 "臉書生活精彩度" 就是一連串計劃的子計劃.
這資料是從你的好友與你的共同好友資料去做分析的, 計算的基礎有幾種思索:
1. 網路好友的交集代表你在網路生活的密集度
2. 你有多少個 "有一定數量交集" 的好友是網路生活的基礎
3. 好友數越高自然有一定的加乘
4. 總共同好友數越高也會有加乘
因此, 這個不是算好友數這麼簡單出來的計算, 我也在討論放出目前計算的公式:
Count(MutalFriends>min(Friends/50, 40+Friends/1000))*log(Friends)*log(Sum(MutalFriends))
當然這分數有幾個特色:
1. 算的是臉書網路生活, 不是算你全部的生活
2. 有些人在臉書的交友圈都很獨立, 並沒有甚麼其他朋友交集, 此時分數就較低
3. 有些人會有刪好友的習慣, 在某種情型下分數會變高, 也有時會變低 (這不是廢話, 而是要看你怎刪)
目前我在說明是這樣寫的:
30 分以下 => 你算網路人嗎?
30~60 分 => 算你有在用網路好了
60~100 分 => 你是不折不扣的網路中堅份子
100~300 分 => 你已經算活在網路上了
300 分以上 => 你確定你有離開網路過嗎
基本上正常人應該都是在 30 分到 60 分之間, 事實上我認為 8 成的人都應該是 60 分以下, 當然是包含偶而上網的人, 而你在今天或一個星期類看到這篇文章跑去做, 很少會低於 30 分的, 而 60 分自然表示是在網路上工作或本身就是在網路媒體業.
而超過 100 分的, 已經代表在網路有一定的名聲 ("生活圈"), 不是泛泛之輩, 就像我就不到 100 分, 落在 60~100 分, 而其中超過 300 分的, 我絕不相信他一天在臉書小於四小時, 基本上就去看醫生了... (阿, 有一個就是精神科醫生)
想要去玩玩看的就進 https://apps.facebook.com/frienque/ 看看吧, 右圖是一個算出來的範例, 我把一些我知道比較少在我牆上發言的給 Blur 掉了, 而剩下的我不相信我貼出來他們敢打我, 哈哈~~~
只是算這個須要一定的時間, 可能要多按幾次 "進行分析" 才能夠把資料抓完, 最後就會有 "分析中" 的提示, 此時你就可以去做其他事, 因為要花一段時間才能算完, 這時間大約是你的好友數乘上 1.5 秒, 也就是說你有 200 個好友, 就代表要等 5 分鐘再進來看結果...
有興趣的人去玩玩看吧.....
2013年5月14日 星期二
2013年5月11日 星期六
台菲網路戰(?) 的災情報導... Taiwan vs Philippine Cyber Wars
雖然這次的事件有很多的觀點, 包含大家慢慢知道這種事件已經不是第一次的偶發事件, 算是種集團性行為, 且行之有年了, 但或許因為網路的關係, 或是馬政府的關係大家慢慢發現屏東漁民的辛苦與悲哀.
當然不就政治討論, 畢竟這個討論不完, 只是我在想這樣的攻擊到底有沒有效, 畢竟這種事有時候是挺麻煩的, 畢竟這是種另類的抗議, 基本上我是認為只要對象是對的, 就沒問題, 因此看到有人說想要攻擊菲律賓的醫療系統以命償命, 我就認為這是相當不好的事.
而若是能夠讓菲律賓政府正視這事情, 而不要傷害到人命, 會不會有其他更好的方法我不知道, 但我是在觀察的是, 菲律賓政府真的發現這事了嗎?
一直到 2~3 個小時前看到菲律賓的新聞報導, 他們選舉委員會(?)在投票前夕, 當掉了兩天, 而也知道這是 DDOS 的攻擊, 也來自台灣, 也知道 "the attacks are a reaction to an incident Thursday morning in the seas between Taiwan and the Philippines in which a Taiwanese fisherman was killed by the Philippine Coast Guard, after his vessel threatened to ram the coast guard ship." 這事, 若這事發展到這邊來看, 不是影響民生而是讓那些權力份子傷腦筋, 這的確是該鼓掌.
甚至也列出在今天早上 11:00 無法連線的網站:
Department of National Defense, www.dnd.gov.ph
Department of Foreign Affairs, www.dfa.gov.ph
Department of Interior and Local Government, www.dilg.gov.ph
Department of Science and Technology, www.dost.gov.ph
Philippine National Police, www.pnp.gov.ph
Philippine Army, www.army.mil.ph
Philippine Navy, www.navy.mil.ph
Philippines News Agency, www.pna.gov.ph
Philippine Information Agency, www.pia.gov.ph
也列出目前被攻擊的網站, 這份資料, 跟 "https://dl.dropboxusercontent.com/u/12618422/philippine.html" 原始是一樣的, 但現在這網站已經把預設網址給拿走了.
而菲律賓的新聞報導也找到 Inside 的文章, 來證明這是台灣所做的, 菲律賓也在研究這攻擊所造成的結果, 但能否因為這樣的事也正視這件漁民受害事件, 也有可能最後是用這事模糊焦點, 這不只要觀察菲律賓政府的反應, 也代表這次這種 DDOS 的台菲網路戰真的發生效果, 而上面的列表或許是他們重視的列表吧....
2013年5月1日 星期三
政府開放平台, 測試成功了嗎?

雖然就政治學面與社會學面, 這是一個偉大的成就, 但就一個工程師的角度來看, 這次所謂的 "公測", 就系統面與內容面是否有達到其標準, 甚至在實用性會是如何, 會有不同的想法, 而這邊以一個開發者, 或者是以我這類型的 "資訊缺乏症候群患者" 的角度來思考, 這個平台測試的是否有成功?
就公開資料而言, 我會有幾點思索:
1. 機讀性: 是否是機器可以輕易讀取與應用
2. 即時性: 是否有時間資料的價值
3. 應用性: 是否有實用且應用的價值
當然應用性這個問題是最無法量化或操作型定義, 所以若是以工程師的角度來看, 至少可以分析判斷的是機讀性與即時性.
機讀是在圖書館學的名詞, 也就是指用機器是否可以輕易讀到, 這牽涉到格式與讀取方式, 而這邊包含的幾個問題:
1. 是否是公開的格式
2. 是否有欄位的定義
3. 是否可以輕易分析
其中我們知道像 TXT 檔雖然是很容易讀到, 但因為沒有欄位是很難分析, 而 CSV 往往因為沒有欄位描述與定義, 也很難去做再次處理, 而圖檔是更不用說是最麻煩的事, 相對的, XML, JSON 都是對機讀是親和的, 而在全部的 239 筆資料中, 不到一半是用 XML 與 JSON, 反倒是不少地理資訊是用 SHP, KMZ 來包裝, 這是值得讚許的, 但除外我也想不出較好的包裝方式.
在時間即時性方面, 有 15 項是有即時 (每10分鐘或每小時或每六小時) 在更新的, 每日更新的也有 26 個 (有 10 個不具每日性), 除外都是以每月每年為主, 這邊可以參考下表.
在看完這些資料, 有幾個想法:
1. 做得最好的大概是氣象局, 文化部, 水利署這三個單位, 無論就即時性, 應用性與機讀性這三個方面都做得相當好.
2. 蒙藏委員會雖然資料應用性不高, 但看起來相當認真, 相對省議會的資料在這邊是用來濫竽充數用的, 感覺是來亂的.
3. 相對的應該有更多資料的環保署, 交通部與經濟部 (主計處) 是可以做得更多更好才對, 但這次並沒有好的表現, 這是相當可惜或值得期許的.
雖然我是個工程師, 但只是個開發工程師而不是專業的測試工程師, 因此沒有對其穩定度, 效率, 錯誤做進一步的檢討, 而是以一個資料使用者的人民來看, 這個系統是否有價值.
只是若這是一個開放平台, 真正的價值不該只有從政府輸出資料而已, 而是人民該用這些資料如何改善自己的生活, 監督政府, 進一步的討論與改變, 甚至不只是單向的資料開放, 而是該更多向的開放資料, 讓資訊變得有價值, 才是 Open Data 的真義.
下面是原始 Google Docs:
訂閱:
文章 (Atom)
熱門文章
-
明明所謂的政治是所有人的事, 但在權力與媒體運作的情型下, 感覺政治只有政治人物才玩得起的遊戲, 難到真的是這樣嗎? 從臉書的掘起, 粉絲團現在變成所有政治人物展現實力的一個場所, 甚至現在的選戰運作理論分成三種力量: 1. 陸軍 : 看政治人物自己的實力, 人脈, ...
-
在標題應該是這樣子的: (我的(你的(我的小城市))), 因為是在想我如何使用 (你我的小城市) 這個系統~~~, 當然還是在講 MyMiniCity .. 有點繞口.. 首先先講不是我做的部份, 在 Create My City 的 Forum 看到一篇, A List of ...
-
標題這句話怎模說呢? 在這次地震之前, Page Rank 是 6 的部落格有 15 個, 而算到剛剛, 目前有 13 個部落格的 PR 值是 6 分, 且其中有 7 個部落格是進步到 6, 這句話是說, 原本的 15 個 PR=6 部落格中, 只有 6 個是保持不變的, 這句話...
-
Weather.DataMining.Tw 做了一個多月了, 這代表資料也搜集一個多月了, 已經幾乎到可以發表的狀況了, 且有個記者朋友也真的寫了篇採訪稿, 但他跟我們講中央氣象局的人說我們的資料有問題, 我一面岔意一面檢查, 果然資料真的有問題. 雖然在這種抓資料的程式, 最麻...
-
很少在標題直接破題的, 因為說當天要寫的, 一晃眼又過了一個月, 雖然現在是比較心平氣和的看這件事情, 但有時還是會有點無奈. 這件事是發生在某個研討會上, 而大家都知道部落格觀察或部觀門都是看誰說得好, 大家在說甚麼的系統, 包含之後的 Plurk.tw, 我一直對於 Data...
-
這篇報導是在 http://tw.news.yahoo.com/article/url/d/a/100809/11/2ar0a.html 這裏, 到中午, TWNIC 的人就一直打電話給我, 而我還在會議中搞不太清楚是甚麼, 但就大意上面指的都是講了很多有問題的話, 而我一上...
-
在 Search Rank (SEO) 納入 Users Signal (使用者訊號) 之後, Click Through Rate (CTR) 變成了一個不在只是 UI/UX 的最愛, 更是 SEOers 不得不提的事了. 當然 CTR 不是只有注重 SEO 的人才須要注意...
-
用了 3.5G 以後, 最大的問題是若是沒有正常慢慢退出的話, 很有可能因為系統認為虛擬光碟還在, 所以不讓你休眠.... 所以此時比較好的方式就是先登出後再休眠, 只是要花較久的時間.. 而昨天當我按休眠後不給休眠, 我就按開關 7 秒鐘後直接關機, 沒想到第二天慘劇就發生了,...
-
很意外的到了 2007 年, 因為心態好像 2006 年還有一大堆 ToDo 還沒做, 而因為前一個月跑去國立藝術大學的達文士吃晚餐, 發現那邊看 101 蠻清楚, 所以就決定跨年在那邊看.... 很幸運的在那邊是屬於一種很 High 但又不擁擠的感覺, 又有點人文藝術氣息且不...
-
上一篇還有很多沒寫到的地方: 1. 在最初的規劃這個數字是 Increamental 的, 也就是為了避免沒有抓到資料時的問題, 而這三種數字有兩個是一直增加的, 一個卻是在變化的. 2. 在第二組的距離, 事實上最後應該只會採用一個, 做一下 x*y*z 應該對資源影響不大. ...