有人應該看到我兩三個星期前寫了一篇 "一個表格", 這是一個很有趣的計算, 因為若是我們能夠對朋友做自動分類, 這代表可以從資訊源的差異來去看資訊分類, 只是這個 "分群 (Clustering)" 一直是最麻煩的事, 因此在確定運作之後, 就放在這邊了.
因為隨便一個人的計算, 就好好幾小時或好幾天, 說要讓使用者等到資料的產出是不太可能的, 因此就有了先做一些好玩小工具, 之後再推出這套系統, 而今天做出來的 "臉書生活精彩度" 就是一連串計劃的子計劃.
這資料是從你的好友與你的共同好友資料去做分析的, 計算的基礎有幾種思索:
1. 網路好友的交集代表你在網路生活的密集度
2. 你有多少個 "有一定數量交集" 的好友是網路生活的基礎
3. 好友數越高自然有一定的加乘
4. 總共同好友數越高也會有加乘
因此, 這個不是算好友數這麼簡單出來的計算, 我也在討論放出目前計算的公式:
Count(MutalFriends>min(Friends/50, 40+Friends/1000))*log(Friends)*log(Sum(MutalFriends))
當然這分數有幾個特色:
1. 算的是臉書網路生活, 不是算你全部的生活
2. 有些人在臉書的交友圈都很獨立, 並沒有甚麼其他朋友交集, 此時分數就較低
3. 有些人會有刪好友的習慣, 在某種情型下分數會變高, 也有時會變低 (這不是廢話, 而是要看你怎刪)
目前我在說明是這樣寫的:
30 分以下 => 你算網路人嗎?
30~60 分 => 算你有在用網路好了
60~100 分 => 你是不折不扣的網路中堅份子
100~300 分 => 你已經算活在網路上了
300 分以上 => 你確定你有離開網路過嗎
基本上正常人應該都是在 30 分到 60 分之間, 事實上我認為 8 成的人都應該是 60 分以下, 當然是包含偶而上網的人, 而你在今天或一個星期類看到這篇文章跑去做, 很少會低於 30 分的, 而 60 分自然表示是在網路上工作或本身就是在網路媒體業.
而超過 100 分的, 已經代表在網路有一定的名聲 ("生活圈"), 不是泛泛之輩, 就像我就不到 100 分, 落在 60~100 分, 而其中超過 300 分的, 我絕不相信他一天在臉書小於四小時, 基本上就去看醫生了... (阿, 有一個就是精神科醫生)
想要去玩玩看的就進 https://apps.facebook.com/frienque/ 看看吧, 右圖是一個算出來的範例, 我把一些我知道比較少在我牆上發言的給 Blur 掉了, 而剩下的我不相信我貼出來他們敢打我, 哈哈~~~
只是算這個須要一定的時間, 可能要多按幾次 "進行分析" 才能夠把資料抓完, 最後就會有 "分析中" 的提示, 此時你就可以去做其他事, 因為要花一段時間才能算完, 這時間大約是你的好友數乘上 1.5 秒, 也就是說你有 200 個好友, 就代表要等 5 分鐘再進來看結果...
有興趣的人去玩玩看吧.....
2013年5月14日 星期二
2013年5月11日 星期六
台菲網路戰(?) 的災情報導... Taiwan vs Philippine Cyber Wars
雖然這次的事件有很多的觀點, 包含大家慢慢知道這種事件已經不是第一次的偶發事件, 算是種集團性行為, 且行之有年了, 但或許因為網路的關係, 或是馬政府的關係大家慢慢發現屏東漁民的辛苦與悲哀.
當然不就政治討論, 畢竟這個討論不完, 只是我在想這樣的攻擊到底有沒有效, 畢竟這種事有時候是挺麻煩的, 畢竟這是種另類的抗議, 基本上我是認為只要對象是對的, 就沒問題, 因此看到有人說想要攻擊菲律賓的醫療系統以命償命, 我就認為這是相當不好的事.
而若是能夠讓菲律賓政府正視這事情, 而不要傷害到人命, 會不會有其他更好的方法我不知道, 但我是在觀察的是, 菲律賓政府真的發現這事了嗎?
一直到 2~3 個小時前看到菲律賓的新聞報導, 他們選舉委員會(?)在投票前夕, 當掉了兩天, 而也知道這是 DDOS 的攻擊, 也來自台灣, 也知道 "the attacks are a reaction to an incident Thursday morning in the seas between Taiwan and the Philippines in which a Taiwanese fisherman was killed by the Philippine Coast Guard, after his vessel threatened to ram the coast guard ship." 這事, 若這事發展到這邊來看, 不是影響民生而是讓那些權力份子傷腦筋, 這的確是該鼓掌.
甚至也列出在今天早上 11:00 無法連線的網站:
Department of National Defense, www.dnd.gov.ph
Department of Foreign Affairs, www.dfa.gov.ph
Department of Interior and Local Government, www.dilg.gov.ph
Department of Science and Technology, www.dost.gov.ph
Philippine National Police, www.pnp.gov.ph
Philippine Army, www.army.mil.ph
Philippine Navy, www.navy.mil.ph
Philippines News Agency, www.pna.gov.ph
Philippine Information Agency, www.pia.gov.ph
也列出目前被攻擊的網站, 這份資料, 跟 "https://dl.dropboxusercontent.com/u/12618422/philippine.html" 原始是一樣的, 但現在這網站已經把預設網址給拿走了.
而菲律賓的新聞報導也找到 Inside 的文章, 來證明這是台灣所做的, 菲律賓也在研究這攻擊所造成的結果, 但能否因為這樣的事也正視這件漁民受害事件, 也有可能最後是用這事模糊焦點, 這不只要觀察菲律賓政府的反應, 也代表這次這種 DDOS 的台菲網路戰真的發生效果, 而上面的列表或許是他們重視的列表吧....
2013年5月1日 星期三
政府開放平台, 測試成功了嗎?

雖然就政治學面與社會學面, 這是一個偉大的成就, 但就一個工程師的角度來看, 這次所謂的 "公測", 就系統面與內容面是否有達到其標準, 甚至在實用性會是如何, 會有不同的想法, 而這邊以一個開發者, 或者是以我這類型的 "資訊缺乏症候群患者" 的角度來思考, 這個平台測試的是否有成功?
就公開資料而言, 我會有幾點思索:
1. 機讀性: 是否是機器可以輕易讀取與應用
2. 即時性: 是否有時間資料的價值
3. 應用性: 是否有實用且應用的價值
當然應用性這個問題是最無法量化或操作型定義, 所以若是以工程師的角度來看, 至少可以分析判斷的是機讀性與即時性.
機讀是在圖書館學的名詞, 也就是指用機器是否可以輕易讀到, 這牽涉到格式與讀取方式, 而這邊包含的幾個問題:
1. 是否是公開的格式
2. 是否有欄位的定義
3. 是否可以輕易分析
其中我們知道像 TXT 檔雖然是很容易讀到, 但因為沒有欄位是很難分析, 而 CSV 往往因為沒有欄位描述與定義, 也很難去做再次處理, 而圖檔是更不用說是最麻煩的事, 相對的, XML, JSON 都是對機讀是親和的, 而在全部的 239 筆資料中, 不到一半是用 XML 與 JSON, 反倒是不少地理資訊是用 SHP, KMZ 來包裝, 這是值得讚許的, 但除外我也想不出較好的包裝方式.
在時間即時性方面, 有 15 項是有即時 (每10分鐘或每小時或每六小時) 在更新的, 每日更新的也有 26 個 (有 10 個不具每日性), 除外都是以每月每年為主, 這邊可以參考下表.
在看完這些資料, 有幾個想法:
1. 做得最好的大概是氣象局, 文化部, 水利署這三個單位, 無論就即時性, 應用性與機讀性這三個方面都做得相當好.
2. 蒙藏委員會雖然資料應用性不高, 但看起來相當認真, 相對省議會的資料在這邊是用來濫竽充數用的, 感覺是來亂的.
3. 相對的應該有更多資料的環保署, 交通部與經濟部 (主計處) 是可以做得更多更好才對, 但這次並沒有好的表現, 這是相當可惜或值得期許的.
雖然我是個工程師, 但只是個開發工程師而不是專業的測試工程師, 因此沒有對其穩定度, 效率, 錯誤做進一步的檢討, 而是以一個資料使用者的人民來看, 這個系統是否有價值.
只是若這是一個開放平台, 真正的價值不該只有從政府輸出資料而已, 而是人民該用這些資料如何改善自己的生活, 監督政府, 進一步的討論與改變, 甚至不只是單向的資料開放, 而是該更多向的開放資料, 讓資訊變得有價值, 才是 Open Data 的真義.
下面是原始 Google Docs:
訂閱:
文章 (Atom)
熱門文章
-
我是不做 "Me,too" 的, 但我知道粉絲團經營最重要的共同指標, 一個是觸及數, 另一個是互動數, 但這數字只有經營者知道, 即使從洞察報告可以看到你加觀察的幾個粉絲團, 最近文章的互動狀況, 但還是離真的狀況有點距離, 除外粉絲團可以比較的就是 ...
-
當我們做出一個系統, 最希望知道的是有沒有檢定判讀的能力, 不然價值與意義就會少很多, 而在做未來國會的時候, 很多人問我, 網路聲量是否能夠轉化成得票數? 事實上我也是很好奇.... 首先一開始, 就直接算出得票數與網路聲量的相關性 (相關係數), 得出來的答案是: ...
-
昨天在臉書的塗鴉牆朋友分享了一個 王美恩 的" 狀態更新 ": 今天在外面餐廳吃飯,旁邊一桌坐了五六位穿著制服的廚師在吃飯。 老大開講:「我跟你們說,要看警察打人就要看三立,要看學生丟石頭警察受傷就要看中天。」 小廚師問:「大哥,你都不看T...
-
有時我總對自己做的東西沒甚麼信心, 從 Plurk.tw 一直到做了很多延伸的應用, 尤其自己知道美工排版不行, 所以常找人合作, 其中一個東西就是 "噗熱浪"... 事實上 Plurk.tw 比 Plurktop 還早做, 當然我們這邊只能從發文說開始運作開...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
當羅技出 G13 後, 我就一直期望能夠玩玩, 而在某天路上撿到一台 G13, 終於可以得償所願阿~~ 上圖是開我原本寫的 N52te 那篇文章, 可以比較看看..... 試用 G13 後, 發現有幾個很不錯或有問題的特色, 當然我是因為跟 Belkin N52te 來做比較: ...
-
這個計劃最出是我交大管科系學長所發生的問題, 因為我寫了一篇文章後, 就跑去 Plurk 跟大家討論, 而他是屬於會使用網路但不會使用 Plurk 的人, 所以跟本不知道 Plurk 講了甚麼, 最後我只好把網址給他, 他才晃然大悟這兩個部份的落差, 所以跟我抱怨這件事, 因此我...
-
先來看個圖, 這個圖是 Hsiaoi Collection 的 點擊歷史 然後再來看在部觀門的 長瀨茜 的圖... 這兩個圖看起來一模一樣, 這都是在一瞬間突然暴紅的某 CA AV... 不否認的, 事實上 Hsiao Collecition 寫的 這篇 真的寫的不錯, ...
-
上一篇說到 MyBlogLog 即將關閉的事, 結果 Yahoo 的 MyBlogLog 還沒有關掉, 倒是 Google 在 CN 卻被腰斬, 這叫該關的沒關, 不該關的但關了嗎? (誤) 但事實上真的在用 MyBlogLog 的人知道, MyBlogLog 有一個有趣的功能,...