2013年5月14日 星期二

你的臉書生活精彩度幾分?

有人應該看到我兩三個星期前寫了一篇 "一個表格", 這是一個很有趣的計算, 因為若是我們能夠對朋友做自動分類, 這代表可以從資訊源的差異來去看資訊分類, 只是這個 "分群 (Clustering)" 一直是最麻煩的事, 因此在確定運作之後, 就放在這邊了.

因為隨便一個人的計算, 就好好幾小時或好幾天, 說要讓使用者等到資料的產出是不太可能的, 因此就有了先做一些好玩小工具, 之後再推出這套系統, 而今天做出來的 "臉書生活精彩度" 就是一連串計劃的子計劃.

這資料是從你的好友與你的共同好友資料去做分析的, 計算的基礎有幾種思索:

1. 網路好友的交集代表你在網路生活的密集度
2. 你有多少個 "有一定數量交集" 的好友是網路生活的基礎
3. 好友數越高自然有一定的加乘
4. 總共同好友數越高也會有加乘

因此, 這個不是算好友數這麼簡單出來的計算, 我也在討論放出目前計算的公式:

Count(MutalFriends>min(Friends/50, 40+Friends/1000))*log(Friends)*log(Sum(MutalFriends))

當然這分數有幾個特色:

1. 算的是臉書網路生活, 不是算你全部的生活
2. 有些人在臉書的交友圈都很獨立, 並沒有甚麼其他朋友交集, 此時分數就較低
3. 有些人會有刪好友的習慣, 在某種情型下分數會變高, 也有時會變低 (這不是廢話, 而是要看你怎刪)

目前我在說明是這樣寫的:

30 分以下 => 你算網路人嗎?
30~60 分 => 算你有在用網路好了
60~100 分 => 你是不折不扣的網路中堅份子
100~300 分 => 你已經算活在網路上了
300 分以上 => 你確定你有離開網路過嗎 


基本上正常人應該都是在 30 分到 60 分之間, 事實上我認為 8 成的人都應該是 60 分以下, 當然是包含偶而上網的人, 而你在今天或一個星期類看到這篇文章跑去做, 很少會低於 30 分的, 而 60 分自然表示是在網路上工作或本身就是在網路媒體業.

而超過 100 分的, 已經代表在網路有一定的名聲 ("生活圈"), 不是泛泛之輩, 就像我就不到 100 分, 落在 60~100 分, 而其中超過 300 分的, 我絕不相信他一天在臉書小於四小時, 基本上就去看醫生了... (阿, 有一個就是精神科醫生)

想要去玩玩看的就進 https://apps.facebook.com/frienque/ 看看吧, 右圖是一個算出來的範例, 我把一些我知道比較少在我牆上發言的給 Blur 掉了, 而剩下的我不相信我貼出來他們敢打我, 哈哈~~~

只是算這個須要一定的時間, 可能要多按幾次 "進行分析" 才能夠把資料抓完, 最後就會有 "分析中" 的提示, 此時你就可以去做其他事, 因為要花一段時間才能算完, 這時間大約是你的好友數乘上 1.5 秒, 也就是說你有 200 個好友, 就代表要等 5 分鐘再進來看結果...

有興趣的人去玩玩看吧.....

2013年5月11日 星期六

台菲網路戰(?) 的災情報導... Taiwan vs Philippine Cyber Wars


雖然這次的事件有很多的觀點, 包含大家慢慢知道這種事件已經不是第一次的偶發事件, 算是種集團性行為, 且行之有年了, 但或許因為網路的關係, 或是馬政府的關係大家慢慢發現屏東漁民的辛苦與悲哀.

當然不就政治討論, 畢竟這個討論不完, 只是我在想這樣的攻擊到底有沒有效, 畢竟這種事有時候是挺麻煩的, 畢竟這是種另類的抗議, 基本上我是認為只要對象是對的, 就沒問題, 因此看到有人說想要攻擊菲律賓的醫療系統以命償命, 我就認為這是相當不好的事.

而若是能夠讓菲律賓政府正視這事情, 而不要傷害到人命, 會不會有其他更好的方法我不知道, 但我是在觀察的是, 菲律賓政府真的發現這事了嗎?


一直到 2~3 個小時前看到菲律賓的新聞報導, 他們選舉委員會(?)在投票前夕, 當掉了兩天, 而也知道這是 DDOS 的攻擊, 也來自台灣, 也知道 "the attacks are a reaction to an incident Thursday morning in the seas between Taiwan and the Philippines in which a Taiwanese fisherman was killed by the Philippine Coast Guard, after his vessel threatened to ram the coast guard ship." 這事, 若這事發展到這邊來看, 不是影響民生而是讓那些權力份子傷腦筋, 這的確是該鼓掌.

甚至也列出在今天早上 11:00 無法連線的網站:


Department of National Defense, www.dnd.gov.ph
Department of Foreign Affairs, www.dfa.gov.ph
Department of Interior and Local Government, www.dilg.gov.ph
Department of Science and Technology, www.dost.gov.ph
Philippine National Police, www.pnp.gov.ph
Philippine Army, www.army.mil.ph
Philippine Navy, www.navy.mil.ph
Philippines News Agency, www.pna.gov.ph
Philippine Information Agency, www.pia.gov.ph

也列出目前被攻擊的網站, 這份資料, 跟 "https://dl.dropboxusercontent.com/u/12618422/philippine.html" 原始是一樣的, 但現在這網站已經把預設網址給拿走了.

而菲律賓的新聞報導也找到 Inside 的文章, 來證明這是台灣所做的, 菲律賓也在研究這攻擊所造成的結果, 但能否因為這樣的事也正視這件漁民受害事件, 也有可能最後是用這事模糊焦點, 這不只要觀察菲律賓政府的反應, 也代表這次這種 DDOS 的台菲網路戰真的發生效果, 而上面的列表或許是他們重視的列表吧....


2013年5月1日 星期三

政府開放平台, 測試成功了嗎?

這幾天大家應該有不少人在鼓掌, 至少我也很想鼓掌, 就是我們的政府終於跨出了第一步, 做了 "政府資料開放平臺", 身為我們人民應該給予支持是真的, 畢竟這不只是政府 "英明" 的決策, 更是許多 "民間友人" 的努力成果, 雖然我們沒必要在這邊討論這是誰的功勞, 因為大家都知道, 這是許多公務人員在爭功諉過之外的成就, 所以身為一個平民, 我的手的確有拍下去了.

雖然就政治學面與社會學面, 這是一個偉大的成就, 但就一個工程師的角度來看, 這次所謂的 "公測", 就系統面與內容面是否有達到其標準, 甚至在實用性會是如何, 會有不同的想法, 而這邊以一個開發者, 或者是以我這類型的 "資訊缺乏症候群患者" 的角度來思考, 這個平台測試的是否有成功?

就公開資料而言, 我會有幾點思索:

1. 機讀性: 是否是機器可以輕易讀取與應用
2. 即時性: 是否有時間資料的價值
3. 應用性: 是否有實用且應用的價值

當然應用性這個問題是最無法量化或操作型定義, 所以若是以工程師的角度來看, 至少可以分析判斷的是機讀性與即時性.

機讀是在圖書館學的名詞, 也就是指用機器是否可以輕易讀到, 這牽涉到格式與讀取方式, 而這邊包含的幾個問題:

1. 是否是公開的格式
2. 是否有欄位的定義
3. 是否可以輕易分析

其中我們知道像 TXT 檔雖然是很容易讀到, 但因為沒有欄位是很難分析, 而 CSV 往往因為沒有欄位描述與定義, 也很難去做再次處理, 而圖檔是更不用說是最麻煩的事, 相對的, XML, JSON 都是對機讀是親和的, 而在全部的 239 筆資料中, 不到一半是用 XML 與 JSON, 反倒是不少地理資訊是用 SHP, KMZ 來包裝, 這是值得讚許的, 但除外我也想不出較好的包裝方式.

在時間即時性方面, 有 15 項是有即時 (每10分鐘或每小時或每六小時) 在更新的,  每日更新的也有 26 個 (有 10 個不具每日性), 除外都是以每月每年為主, 這邊可以參考下表.


在看完這些資料, 有幾個想法:

1. 做得最好的大概是氣象局, 文化部, 水利署這三個單位, 無論就即時性, 應用性與機讀性這三個方面都做得相當好.

2. 蒙藏委員會雖然資料應用性不高, 但看起來相當認真, 相對省議會的資料在這邊是用來濫竽充數用的, 感覺是來亂的.

3. 相對的應該有更多資料的環保署, 交通部與經濟部 (主計處) 是可以做得更多更好才對, 但這次並沒有好的表現, 這是相當可惜或值得期許的.

雖然我是個工程師, 但只是個開發工程師而不是專業的測試工程師, 因此沒有對其穩定度, 效率, 錯誤做進一步的檢討, 而是以一個資料使用者的人民來看, 這個系統是否有價值.

只是若這是一個開放平台, 真正的價值不該只有從政府輸出資料而已, 而是人民該用這些資料如何改善自己的生活, 監督政府, 進一步的討論與改變, 甚至不只是單向的資料開放, 而是該更多向的開放資料, 讓資訊變得有價值, 才是 Open Data 的真義.

下面是原始 Google Docs:

熱門文章