有人應該看到我兩三個星期前寫了一篇 "一個表格", 這是一個很有趣的計算, 因為若是我們能夠對朋友做自動分類, 這代表可以從資訊源的差異來去看資訊分類, 只是這個 "分群 (Clustering)" 一直是最麻煩的事, 因此在確定運作之後, 就放在這邊了.
因為隨便一個人的計算, 就好好幾小時或好幾天, 說要讓使用者等到資料的產出是不太可能的, 因此就有了先做一些好玩小工具, 之後再推出這套系統, 而今天做出來的 "臉書生活精彩度" 就是一連串計劃的子計劃.
這資料是從你的好友與你的共同好友資料去做分析的, 計算的基礎有幾種思索:
1. 網路好友的交集代表你在網路生活的密集度
2. 你有多少個 "有一定數量交集" 的好友是網路生活的基礎
3. 好友數越高自然有一定的加乘
4. 總共同好友數越高也會有加乘
因此, 這個不是算好友數這麼簡單出來的計算, 我也在討論放出目前計算的公式:
Count(MutalFriends>min(Friends/50, 40+Friends/1000))*log(Friends)*log(Sum(MutalFriends))
當然這分數有幾個特色:
1. 算的是臉書網路生活, 不是算你全部的生活
2. 有些人在臉書的交友圈都很獨立, 並沒有甚麼其他朋友交集, 此時分數就較低
3. 有些人會有刪好友的習慣, 在某種情型下分數會變高, 也有時會變低 (這不是廢話, 而是要看你怎刪)
目前我在說明是這樣寫的:
30 分以下 => 你算網路人嗎?
30~60 分 => 算你有在用網路好了
60~100 分 => 你是不折不扣的網路中堅份子
100~300 分 => 你已經算活在網路上了
300 分以上 => 你確定你有離開網路過嗎
基本上正常人應該都是在 30 分到 60 分之間, 事實上我認為 8 成的人都應該是 60 分以下, 當然是包含偶而上網的人, 而你在今天或一個星期類看到這篇文章跑去做, 很少會低於 30 分的, 而 60 分自然表示是在網路上工作或本身就是在網路媒體業.
而超過 100 分的, 已經代表在網路有一定的名聲 ("生活圈"), 不是泛泛之輩, 就像我就不到 100 分, 落在 60~100 分, 而其中超過 300 分的, 我絕不相信他一天在臉書小於四小時, 基本上就去看醫生了... (阿, 有一個就是精神科醫生)
想要去玩玩看的就進 https://apps.facebook.com/frienque/ 看看吧, 右圖是一個算出來的範例, 我把一些我知道比較少在我牆上發言的給 Blur 掉了, 而剩下的我不相信我貼出來他們敢打我, 哈哈~~~
只是算這個須要一定的時間, 可能要多按幾次 "進行分析" 才能夠把資料抓完, 最後就會有 "分析中" 的提示, 此時你就可以去做其他事, 因為要花一段時間才能算完, 這時間大約是你的好友數乘上 1.5 秒, 也就是說你有 200 個好友, 就代表要等 5 分鐘再進來看結果...
有興趣的人去玩玩看吧.....
2013年5月14日 星期二
2013年5月11日 星期六
台菲網路戰(?) 的災情報導... Taiwan vs Philippine Cyber Wars
雖然這次的事件有很多的觀點, 包含大家慢慢知道這種事件已經不是第一次的偶發事件, 算是種集團性行為, 且行之有年了, 但或許因為網路的關係, 或是馬政府的關係大家慢慢發現屏東漁民的辛苦與悲哀.
當然不就政治討論, 畢竟這個討論不完, 只是我在想這樣的攻擊到底有沒有效, 畢竟這種事有時候是挺麻煩的, 畢竟這是種另類的抗議, 基本上我是認為只要對象是對的, 就沒問題, 因此看到有人說想要攻擊菲律賓的醫療系統以命償命, 我就認為這是相當不好的事.
而若是能夠讓菲律賓政府正視這事情, 而不要傷害到人命, 會不會有其他更好的方法我不知道, 但我是在觀察的是, 菲律賓政府真的發現這事了嗎?
一直到 2~3 個小時前看到菲律賓的新聞報導, 他們選舉委員會(?)在投票前夕, 當掉了兩天, 而也知道這是 DDOS 的攻擊, 也來自台灣, 也知道 "the attacks are a reaction to an incident Thursday morning in the seas between Taiwan and the Philippines in which a Taiwanese fisherman was killed by the Philippine Coast Guard, after his vessel threatened to ram the coast guard ship." 這事, 若這事發展到這邊來看, 不是影響民生而是讓那些權力份子傷腦筋, 這的確是該鼓掌.
甚至也列出在今天早上 11:00 無法連線的網站:
Department of National Defense, www.dnd.gov.ph
Department of Foreign Affairs, www.dfa.gov.ph
Department of Interior and Local Government, www.dilg.gov.ph
Department of Science and Technology, www.dost.gov.ph
Philippine National Police, www.pnp.gov.ph
Philippine Army, www.army.mil.ph
Philippine Navy, www.navy.mil.ph
Philippines News Agency, www.pna.gov.ph
Philippine Information Agency, www.pia.gov.ph
也列出目前被攻擊的網站, 這份資料, 跟 "https://dl.dropboxusercontent.com/u/12618422/philippine.html" 原始是一樣的, 但現在這網站已經把預設網址給拿走了.
而菲律賓的新聞報導也找到 Inside 的文章, 來證明這是台灣所做的, 菲律賓也在研究這攻擊所造成的結果, 但能否因為這樣的事也正視這件漁民受害事件, 也有可能最後是用這事模糊焦點, 這不只要觀察菲律賓政府的反應, 也代表這次這種 DDOS 的台菲網路戰真的發生效果, 而上面的列表或許是他們重視的列表吧....
2013年5月1日 星期三
政府開放平台, 測試成功了嗎?
這幾天大家應該有不少人在鼓掌, 至少我也很想鼓掌, 就是我們的政府終於跨出了第一步, 做了 "政府資料開放平臺", 身為我們人民應該給予支持是真的, 畢竟這不只是政府 "英明" 的決策, 更是許多 "民間友人" 的努力成果, 雖然我們沒必要在這邊討論這是誰的功勞, 因為大家都知道, 這是許多公務人員在爭功諉過之外的成就, 所以身為一個平民, 我的手的確有拍下去了.
雖然就政治學面與社會學面, 這是一個偉大的成就, 但就一個工程師的角度來看, 這次所謂的 "公測", 就系統面與內容面是否有達到其標準, 甚至在實用性會是如何, 會有不同的想法, 而這邊以一個開發者, 或者是以我這類型的 "資訊缺乏症候群患者" 的角度來思考, 這個平台測試的是否有成功?
就公開資料而言, 我會有幾點思索:
1. 機讀性: 是否是機器可以輕易讀取與應用
2. 即時性: 是否有時間資料的價值
3. 應用性: 是否有實用且應用的價值
當然應用性這個問題是最無法量化或操作型定義, 所以若是以工程師的角度來看, 至少可以分析判斷的是機讀性與即時性.
機讀是在圖書館學的名詞, 也就是指用機器是否可以輕易讀到, 這牽涉到格式與讀取方式, 而這邊包含的幾個問題:
1. 是否是公開的格式
2. 是否有欄位的定義
3. 是否可以輕易分析
其中我們知道像 TXT 檔雖然是很容易讀到, 但因為沒有欄位是很難分析, 而 CSV 往往因為沒有欄位描述與定義, 也很難去做再次處理, 而圖檔是更不用說是最麻煩的事, 相對的, XML, JSON 都是對機讀是親和的, 而在全部的 239 筆資料中, 不到一半是用 XML 與 JSON, 反倒是不少地理資訊是用 SHP, KMZ 來包裝, 這是值得讚許的, 但除外我也想不出較好的包裝方式.
在時間即時性方面, 有 15 項是有即時 (每10分鐘或每小時或每六小時) 在更新的, 每日更新的也有 26 個 (有 10 個不具每日性), 除外都是以每月每年為主, 這邊可以參考下表.
在看完這些資料, 有幾個想法:
1. 做得最好的大概是氣象局, 文化部, 水利署這三個單位, 無論就即時性, 應用性與機讀性這三個方面都做得相當好.
2. 蒙藏委員會雖然資料應用性不高, 但看起來相當認真, 相對省議會的資料在這邊是用來濫竽充數用的, 感覺是來亂的.
3. 相對的應該有更多資料的環保署, 交通部與經濟部 (主計處) 是可以做得更多更好才對, 但這次並沒有好的表現, 這是相當可惜或值得期許的.
雖然我是個工程師, 但只是個開發工程師而不是專業的測試工程師, 因此沒有對其穩定度, 效率, 錯誤做進一步的檢討, 而是以一個資料使用者的人民來看, 這個系統是否有價值.
只是若這是一個開放平台, 真正的價值不該只有從政府輸出資料而已, 而是人民該用這些資料如何改善自己的生活, 監督政府, 進一步的討論與改變, 甚至不只是單向的資料開放, 而是該更多向的開放資料, 讓資訊變得有價值, 才是 Open Data 的真義.
下面是原始 Google Docs:
雖然就政治學面與社會學面, 這是一個偉大的成就, 但就一個工程師的角度來看, 這次所謂的 "公測", 就系統面與內容面是否有達到其標準, 甚至在實用性會是如何, 會有不同的想法, 而這邊以一個開發者, 或者是以我這類型的 "資訊缺乏症候群患者" 的角度來思考, 這個平台測試的是否有成功?
就公開資料而言, 我會有幾點思索:
1. 機讀性: 是否是機器可以輕易讀取與應用
2. 即時性: 是否有時間資料的價值
3. 應用性: 是否有實用且應用的價值
當然應用性這個問題是最無法量化或操作型定義, 所以若是以工程師的角度來看, 至少可以分析判斷的是機讀性與即時性.
機讀是在圖書館學的名詞, 也就是指用機器是否可以輕易讀到, 這牽涉到格式與讀取方式, 而這邊包含的幾個問題:
1. 是否是公開的格式
2. 是否有欄位的定義
3. 是否可以輕易分析
其中我們知道像 TXT 檔雖然是很容易讀到, 但因為沒有欄位是很難分析, 而 CSV 往往因為沒有欄位描述與定義, 也很難去做再次處理, 而圖檔是更不用說是最麻煩的事, 相對的, XML, JSON 都是對機讀是親和的, 而在全部的 239 筆資料中, 不到一半是用 XML 與 JSON, 反倒是不少地理資訊是用 SHP, KMZ 來包裝, 這是值得讚許的, 但除外我也想不出較好的包裝方式.
在時間即時性方面, 有 15 項是有即時 (每10分鐘或每小時或每六小時) 在更新的, 每日更新的也有 26 個 (有 10 個不具每日性), 除外都是以每月每年為主, 這邊可以參考下表.
在看完這些資料, 有幾個想法:
1. 做得最好的大概是氣象局, 文化部, 水利署這三個單位, 無論就即時性, 應用性與機讀性這三個方面都做得相當好.
2. 蒙藏委員會雖然資料應用性不高, 但看起來相當認真, 相對省議會的資料在這邊是用來濫竽充數用的, 感覺是來亂的.
3. 相對的應該有更多資料的環保署, 交通部與經濟部 (主計處) 是可以做得更多更好才對, 但這次並沒有好的表現, 這是相當可惜或值得期許的.
雖然我是個工程師, 但只是個開發工程師而不是專業的測試工程師, 因此沒有對其穩定度, 效率, 錯誤做進一步的檢討, 而是以一個資料使用者的人民來看, 這個系統是否有價值.
只是若這是一個開放平台, 真正的價值不該只有從政府輸出資料而已, 而是人民該用這些資料如何改善自己的生活, 監督政府, 進一步的討論與改變, 甚至不只是單向的資料開放, 而是該更多向的開放資料, 讓資訊變得有價值, 才是 Open Data 的真義.
下面是原始 Google Docs:
訂閱:
文章 (Atom)
熱門文章
-
原本以為這程式是相當難寫的, 但在 AM 4:00 洗澡的時候, 仔細想想並不困難, 但應該說不困難的是在抓取, 但要顯示出有價值與意義的排行榜是相對困難的.... 後來花了不到半小時就有個雛型, 接下來就是顯示這排行榜, 而在昨天睡前 (AM 5:00) 時, 只是一個最近抓到...
-
這句話已經喊了不知多久了, 當時聽到 LG 出了一款可以 USB 連結的 LCD, 想說這真的是太好了, ... 但沒想到還沒真的上市就腰斬了(?), 後來找到原來這技術是一家叫 Display Link 的公司, 做的... 而我在兩年多前就開始採用雙螢幕, 而現在若是沒用雙...
-
現在是 3:42 分, 該睡了, 但一直想寫篇文章但都一直提不起勁, 大概是為了準備星期四博客來的會議, 讓整個心態與作息全部亂了, 在此時蛋捲個人站又掛了, 讓我的情續大概到了蠻低的低潮吧... 整個星期六日沒甚麼精神做事, 事實上大約在上星期二似乎就隨著部落格溫度計進到低點,...
-
剛很無聊的把噗浪的關鍵字趨勢圖畫出來, 大家有空可以去看看... 這是以話題的 "使用者比例" 為單位, 來跟自己比較, 若是去看原圖有週曲線, 月曲線以及最近一季的狀況: 但下面的圖當時是畫 4 個月 (因為當時也是這系統開始運作的時候), 以後會改半年. ...
-
這幾個月一直看各個媒體在臉書的表現, 可以發現各個媒體的使用者介面與政策, 都會影響新聞在臉書的行為, 雖然有時是讀者的屬性做決定. 而一則新聞有時不用從內容, 甚至不用人去 "刻意投票", 我們就可以從臉書使用者的 "讚享評" 就...
-
從分家到現在, 我還是維持著兩個都有在更新的狀態, ... 也因為身份的關係, 也沒去說那家比較好... 但當天空吃下蕃薯藤後, 有好有壞, 但大多是壞處.. 1. 自由欄位最多 10 個, 事實上蠻不夠用的... 2. 輸入資料無法全選, 必須去動滑鼠去選擇... 3. 引用似...
-
基本上我是屬於逃避加無所謂鄉愿型的人, 所以即使罵我我也很難生氣, 但還是會難過, 只是比較不會生氣... 所以這次會把回應關起來, 當然不是有誰在說我壞話, 因為這很常見也很習慣, 但最近真的 Spam 廣告訊息真的太多了, 所以先將回應暫時設成 "審核制"...
-
這個計劃最出是我交大管科系學長所發生的問題, 因為我寫了一篇文章後, 就跑去 Plurk 跟大家討論, 而他是屬於會使用網路但不會使用 Plurk 的人, 所以跟本不知道 Plurk 講了甚麼, 最後我只好把網址給他, 他才晃然大悟這兩個部份的落差, 所以跟我抱怨這件事, 因此我...
-
今天臉書上有兩個藝人很紅, 一個是說 "My Hometown" 的張懸, 另一個是 "悍衛傳統道德" 的郭采潔, 因為她們的表態, 造成臉書很大的風波... 這兩件事剛好都是 "言論自由" 很好的例子, 一個是...
-
我剛去看 iTHome 的部落格後台, 看有那些連結連到我章, 其中一個大陸的 Google Search 我點下去看時愣住了... "點點看" 結果出現: G o o g l e 錯誤 很抱歉... ...您的查詢疑似來自電腦病...