2014年8月19日 星期二

內容農場真的在傷害社會嗎?

昨天, 在台灣社群排行榜的前 10 名, 有 6 名是內容農場, 甚至可以說是 6 + 0.5 + 0.25 = 6.75 都可以, 其中包含可以討論的 A Day Magazine 及 ETtoday 的鍵盤大檸檬, ....

會出現這樣也是因為其中有 boMb01 的出現, 加上 sos.tw 加入戰局所造成的, 其中最有趣的是 sos 聯盟, 包含下面幾個:

救命阿 SOS.tw 內容農場
petstube.tv 內容農場
sport01.tv 內容農場
kuso01.tv 內容農場
e04.tv 內容農場
boMb01 內容農場 (?)

上面這四個網站是共用一個 Google Adsense 的廣告主及版型, 而 boMb01 跟前四個是在同一個機房, 就命名原則應該也是同一個公司做的.



雖然說內容農場很可怕, 但比較麻煩的事這些人都是有關係或是同一組人, 而且大量的在產生內容與網站, 且在了解如何操作 "下標", 所以分享與連結是相當的可怕, 因此雖然說 10 名中有 6 名是內容農場, 但在 50 名中只占 10 名, 也就是說集中在前 10 名.

即使是看起來數目不多, 但瓜分了不少的社群流量, 基本上甚至可以說是 "賺很多", 在這種成本不是很高的情形下, 都可以推估一篇文章的廣告數可以賺到 2~5 萬元以上, 而成本極低, 因為跟本不是原創或經過授權.

在這邊定義內容農場是, 依最新或最多分享的 10 篇文章中:

1. 有 8 篇以上不是原創, 也就是說有 3 篇是其站內作者署名原創.
2. 有 6 篇以上是宣稱授權, 也就是說有 5 篇是有獲得原作者的授權.

只要同時符合作兩個條件就才會被劃分內容農場, 這麼嚴格的定義還是有不少網站被劃為內容農場, 因為事實上本質上他們就是想賺 "Easy Money".

當然社群的 "眼球時間" 是有限的, 當內容農場賺取了不少流量與廣告, 相對的認真創作的網站就被剝奪了獲得收益的機會, 說內容農場沒在傷害是不可能的, 更何況大部份的內容都是 "錯誤" 的, 基本上都是以偏蓋全, 危言聳聽, 因為這樣才能夠獲得更多的分享與討論.

雖然現在已經幾個朋友宣稱, 只要他的朋友分享內容農場的文章就刪好友, 但還是有人持續的在分享這些網站, 因為有太多人沒有意識到他們在散播有問題的內容, 無論就內容或是型式上的.

或許要求內容農場不去賺 "Easy Money" 是不可能, 就像是要求販毒過的人不再販毒一樣, 他們會問你除了這方式外, 還有比這更好賺的嗎? 只是不一樣的是我們可以停止分享來讓他們的利益減少, 至少在動機上他們會少很多, 這比透過任何法律或道德方式都更有意義, 不是嗎?

2014年8月15日 星期五

一個集遊法, 兩個政府, 幾個媒體, 很多觀點?

昨天的新聞在我眼中最重要的就是集遊法了, 因為這也是言論自由很重要的基礎, 若沒有了言論自由, 甚麼民主都是假相, 只是看了一下記者對行政院的解讀是下面這樣子:


OK, 看了上面這幾則之後, 請大家知道到底是在緊縮還是在鬆綁? 當然在看這之前我們要知道兩件事:




其中也包含兩個 "白狼路過事件" 與 "公投盟蔡丁貴411事件" 的遠因, 此時就不難想像, 這次行政院的作為就是要對 411中正一分局事件做個清算, 其中有兩個不同的觀點是:

1. 偶發性集遊是指因特殊原因未經召集而自發聚集,且事實上無發起人或負責人的集遊,不須事前報備
2. 緊急性則指事起倉促,且非即刻舉行無法達到目的的緊急集會遊行,則應於舉行前報備。

且行政院直接點名: "至於411民眾包圍中正一分局的集遊行為如何認定?邱昌嶽則認為,這是有計畫、有召集、有訴求、有標語,應不屬於緊急或偶發" 直接否定此事件, 傾向認定其違法的事.

事實上這是一個相當有趣的事情, 緊急事情既然緊急, 如何報備? 且這種事本來就是突發狀況居多, 如何報備, 甚至回頭來看, 411 真的有計劃與召集嗎? 甚至相對於白狼路過事件, 這才是在多天前, 有組織, 有召集的事, 但很明鮮的中正一認定為不違法.

當然我們這邊要討論的是一個警察局長能否直接挑戰憲法, 即使他認為他可以擔當, 但就集遊法本身, 警察就是一個當事者, 若是由警察這個當事者與執行者, 來決定法律及法律執行的程度, 在某方面就跟本不須要法律了.

但拉回來, 至少已經確定無論是偶發性或緊急性是不用申請許可制, 只是一個報備制指的是可以事後用超過報備範圍來定罪或強制執行或認定違法, 若沒有報備的須要就很難有限制可以去框住與執行.

只是像 411 這種沒有明顯特定發起人, 召集人的事, 行政院也認定這只是屬於緊急性而不是偶發性, 這樣事實上所有事情都須要報備, 都可以去約束了.

依照我對數字的定論, 應該是用更客觀的操作型定義, 甚至緊急性與急迫性應該設定為:

1. 事情發生到眾所皆知 24 小時內所發生的事不須報備
2. 在事前可以特定聯絡得到的負責人, 須報備...

只是在任何情型, 這種事情都是種雙方的角力, 通常當權者主張縮限, 人民主張開放, 這事是不回停止紛爭的...

而就林克傳說來看, 最被注意到的兩則是:



所以大家注意到的是, "還是須要報備" 的那部份, 而是把本來就不須要報備的當作是天經地義, 雖然中央社是認為: "偶發性集會不須報備", 代表政府已經認為足夠寬大為懷, 人民應該感謝了, 只是最後大法官晾在一旁.

2014年8月9日 星期六

真・偽部落格觀察排行榜(臉書社群加強版)


網址: http://social.board.tw/blog.php

從前年開始喊說要做部落格觀察 3.0 (那時候跳過 2 版了?), 但目前還在只聽到腳步聲, 連個影也沒有, 而這部份已經被林克傳說跨行踩到了.

林克傳說在七月初做出臉書的網站連結 Engagement 互動排行榜, 接下來就是要做分類排行榜, 只是這分類不可能用 Link (連結) 一筆筆去看, 要先做分類的是網站, 然後從網站定義出分類, 因此在做出 "台灣社群排行榜" 後, 接下來就是定義那些是個人部落格(網站)了.

但不一樣的是, 網站的前 50 名有一定的量所以就有一定的準確度, 相較之下個人部落格的量就少很多, 像今天網站前 50 名中, 也只有一個個人部落格, 所以像右圖的前 10 名是累積 30 天的量, 就前一天的名次看就穩定多了.

只是若是要公布穩定的排行榜, 這系統最好還是要以月為單位來公布, 所以這系統雖是在 7/7 開始做, 但之間經過幾次改版, 大約在  7/20 才慢慢穩定收斂, 因此若是要公布個有意義的排行榜, 可能就是等八月結束了.

雖然說這是 "部落格排行榜", 本質上還是個 "偽作", 但也是有一定的準確性, 所以最後定名為: "真・偽部落格觀察排行榜(臉書社群加強版)", 這樣會不會很有 KOEI 風格呢?

如前一篇 "臉書導流到網站的排行榜 social.board.tw" 所說的, 這個數字計算的只是導流的部份, 像大家熟知的重灌狂人, 流量也是在台灣前 200 名, 比上面排行榜的任何一個部落格說度定都還來得高, 但尤於這重灌狂人這網站完全不以臉書為社群中心, 所以最後也完全不在排行榜裏面, 相較電腦王阿達就在很前面.

像重灌狂人的社群導流只有 3.64%, 所以即使他有 4M 的訪客, 因此只有 14萬來自社群, 而阿達的 1.6M 有 23.48%, 換算就是 38 萬, 多了好幾倍.

另一個問題是現在已經有不少部落客的露出不完全只是自己部落格, 也透過像蘋果即時或其他專欄做曝光, 自己的部落格相較小很多, 所以名次就較低, 像 "個人意見", "李柏鋒", "人渣" 等人都在很多地方是重要的台柱, 自己部落格流量就會受影響也是不否認的, 只是相對的到底甚麼是真實就看大家自己去定義.

但當初建立部落格觀察, 是想要對讀者的閱讀方向有幫助, 這系統反而就差很多了, 這排行榜倒反而是讓部落客之間了解為甚麼其他部落客如何能夠獲得 Engagement (讚/享/評), 然後找出自己的方法與特色, 去了解自己的優缺點的意義反而較大.
可以透過這系統連回林克傳說看原始的數字, 就可以知道這部落格為甚麼在這麼前面, 而你的部落格沒有,  就可以發現 "持續性的發好文章" 是最重要的事, 當然最後是能否在臉書有所回應也是個重點.

最後請大家注意一點, 這系統的排名依據不是總流量, 而是從臉書社群導流的流量, 也就是 Social 的流量來做排名, 因此附上 "檢驗", 大家可以透過後面的連結去看 SimilarWeb, 就知道有些網站是透過 Social 多還是少, 最後決定這排行榜的名次, 雖然這種 "Social/社群" 的方式更能夠代表好文章與文章價值, 但多少還是有一個更重要的原因.........................

就是....... 不告訴你...... 逃.........

(事實上是下集待續啦~~, 因為也打算寫系統證明)

2014年8月8日 星期五

臉書導流到網站的排行榜 social.board.tw

網址:  台灣社群排行榜

在經營網站時, 一定要知道網站的流量來源, 其中可以分成幾類:

1. 短期 : 社群, 廣告, (3 小時到 3 天), Buy(主)/Earn
2. 中期 : 搜尋, 轉介, (3 週到 3 個月), Earn(主)/Buy
3. 長期 : 直接, 訂閱, (3 個月以上), Own(主)/Earn

現在最被重視的流量來源就是社群了, 甚至出現只靠社群經營的網站, 尤其是內容農場之類的網站, 直接跳過中長期經營, 只做直接有效的短期經營, 也因為這種快速的 Easy Money, 即使不見得都是違法, 但的確存在有些人被侵犯的事.

林克傳說是以社群網站(臉書)中使用者分享連結的觀察系統, 而在建立起來後, 已經可以看到台灣網路使用者如何透過分享來看內容, 其中包含新聞及其他內容, 在有足夠有效度的資料之後, 就可以直接進一步的不靠抽樣獲得較完整的資訊, 就是臉書分享排行榜.

這系統有幾個步驟去完成:
1. 獲得使用者的授權
2. 搜集使用者看得到的動態牆
3. 合併相同內容但不同網址的連結
4. 計算此連結的覆蓋率
5. 排程抓取這些種子連結的臉書數值
6. 推估每天的數值
7. 計算排行榜
其中前四項林克傳說已經完成了, 後三項看起來簡單, 但排程與推估這件事情是沒那麼簡單, 這部份從開始寫到定案大概改了二十次以上的演算法, 其中也嘗試著算出第一版的 "那些網站最被台灣網友分享與按讚?", 但當有人指出有問題時, 我也發現有更多可以改善的地方, 所以又停下來重整, 所以貼出 "[林克傳說] 有關臉書社群榜", 再做些基礎工夫後會更準確.

即使真的算出這個網站可以透過社群獲得多少流量, 但別忘了這才是目前主要流量來源的一種 (社群, 搜尋, 轉介, 直接), 雖然有些網站不到一成來源來自社群, 但也有超過七八成流量來自社群的網站, 就像 "媒體在社群網路的消長分析 (2014前半年)" 所說的, 即使是新聞網站, 有的是 4 成來自社群, 也有不到 2 成的, 差距是超過一倍以上, 甚至是明明社群流量大過別人, 但總流量卻輸如, 或者是相反, 因此可以知道每一個網站屬性都是不太一樣的.

在之前, 大家看社群都是看粉絲團, 從看粉絲團的人數, 看成長數, 看每則動態消息的讚/分享/評論的數字及觸及數, 但這些都無法產生價值與效益, 因為最後還是要看真正回流到網站後, 對點擊與閱讀產生的廣告效益等等, 雖然粉絲團的經營是個先驗, 是個領先指標, 但最後還是要回到網站本身, 所以最後有人跟我說, 林克傳說的數字跟他們差距相當大, 原本以為是算錯, 所以經過努力把精確度提升, 但還是有人說完全不一樣, 此時才發現這是兩個不同角度的事.

粉絲團的 Insight: 透過粉絲團經營與動態消息的排行榜與分佈, 可以知道這個網站在臉書的活躍度.
台灣社群排行榜: 透過網站本身在臉書的按讚/分享/評論, 知道使用者透過個人動態消息的傳播狀況.

很明鮮的這是兩個完全不同的觀點, 不同的來源數字, 舉個例子來說好了, 蘋果日報粉絲團貼出 "高市​早知榮化奪命管線 陳菊鞠躬道歉" 這動態消息, 這則動態獲得了 52,470 個讚, 1,036 個分享及 2,152 個討論, 加起來超過 5.5 萬個觸及數, 但在網站上這則新聞同一時間的數字是 1.3 萬, 其中是 11,311 個讚, 612 個分享, 1,936 個評論, 加起來是 13,859 個觸及, 也就是 1.3 萬, 若是要看經營粉絲團的成效, 看的是 5.5 萬, 但若是要看網站在社群的效應, 則是 1.3 萬, 這是兩個不同的觀點.

大家可以看下面的截圖的數字就可以知道, 左邊是粉絲團, 右邊是網站:



而這系統是以經營網站的觀點優先於經營粉絲團, 所以計算的是網站的效應, 而非粉絲團的效應, 所以這數字跟 Insight 有段落差, 就像是蘋果日報的粉絲團經營的很好, 若是看 Insight 絕對是比 ETtoday 好上很多, 但 ETtoday 經營的就不只限於一個粉絲團, 而看的是帶來的網站效應, 最後對應到 SimilarWeb 來看, 果然 ETtoday 社群佔比比蘋果高, 但話說這之間差距不大是真的, 只是就單一粉絲團經營成效比就差很多了.

這個排行榜的目的就是看社群的導流效果, 當然用按讚/分享/評論數不是絕對的, 但也是可以推估個蛛絲馬跡, 因為最後網站的總流量還是要加其他來源.

原本排行榜是把七天內獲得的 "讚/享/評" 這三個數字加總, 但發現按讚的數字比分享評論大上 9~10 倍, 也就是說只看按讚就決定了, 但實務上較重要的是分享, 因為這會影響到真正的覆蓋率, 只是按讚更是人最初發的行為, 不能完全不算, 所以最後把這數字加權加總後來排除排行榜.

只是這數字差距還是相當大, 第一名跟第一百名數字是相差一萬倍, 因此最後還是取對數後做正規化 (Normalization), 而讓大家比較好閱讀, 若你是較專業的分析師, 可以用 origin=1 的參數, 來看完全沒加權, 沒取對數的數字, 來跟你手上的數字做驗證是否正確.

最後加上跟前一天的排名, 分數做比較, 也提供到 Alexa 與 SimilarWeb 的連結做檢驗, 接下來會做的是將之分類, 但這些就須要較多的人工了, 雖然加註中文也花了不少時間.

會做這排行榜只是想分析媒體, 或是想去觀察內容農場, 後來經過某位知名的 XXC 好朋友, 他在想說如何更領先知道一個網站的暴發與成長, 在做之前, 一定要有基本資料做比較, 所以這排行榜就出來了, 所以是希望做出來對網站經營者, 媒採與廣告主, 及社群的大家有所幫助.

2014年8月6日 星期三

很可怕的臉書連結分享儀表板 (Dashboard)

昨天一直被 James Skiky Hsiao 說林克傳說是一個很可怕的東西, 但畢竟工具是獨立的, 沒有善惡對錯, 無論做出來是可以成為鏟除萬惡的海軍軍艦, 還是變成給海賊王用最自由的海盜船, 這系統只能努力發展, 並不做任何假設....

經過跟李柏鋒與闇月鏡的討論及 co-work 後, 臉書連結分享排行榜勉強到達一個可以看的狀況, 且準確度也慢慢滿意了, 而昨晚完成的儀表板幾乎就是一個很實用的結果, 若有在追蹤我臉書的動態消息, 就知道這是一連串的改進的實作.

目前在林克傳說中, 看到有關 "分享" 的數字, 點進去就可以看到這個儀表版 (Dashboard), 其中分成幾個...

1. 基本資料: 包含第一週的曲線與分數, 包含擴散力, 以及三個主要的傳教士, 有關聯的關鍵字, 以及有關聯的連結.

2. 回看討論: 看到這個連結在分享時所發表的意見, 但過濾掉非公開的資訊.

3. 72小時線圖: 每小時的讓你看到這連結的臉書狀況

4. 一週日線圖: 除了可以看到第一週的資料, 也可以改成看到今天的線圖

5. 歷史資料: 這系統目前去臉書抓資料的詳細資料, 這是用來除錯用.

而在基本資料中, 有兩種分數要在這邊解釋:

1. 第一天與第三天佔比: 是指這個連結到現在, 第一天時與第三天所佔的比例, 通常前三天佔的比例不到 100% 或更低, 表示第四天之後還是有人持續的在按讚與分享, 評論, 也就是說這系統活得較久.

2. 擴散力: 由於前個分數會因為時間的推移改變, 也是以最新的資料去算, 即時參考的分數, 但要做檢討的話必須要是一個固定的數字, 因此擴散力是一個在固定前七天中, 那時累積 100% 的觀點, 前六天跟 100% 差距的百分比總和.

在這邊擴散力是一個理論值最高 100 分, 但實務上是 0~200 分的數值, 就觀察這擴散力的價值如下:

1. 50 分以下: 代表這連結幾乎沒有擴散力, 前三天之後就停止散播的狀態.
2. 50~100 分: 正常的連結, 第三天以後還是有人在分享.
3. 100 分以上: 最高可能不見得是第一天, 往往第二天與第三天之後還是有很強的力道.

但目前這幾個數字會出現前題是系統能夠在第一天就抓到資料, 有些連結的分享一開始較緩慢, 說不定到第二天第三天才會被計算時, 就無法計算這分數了.

而在李柏鋒的建議下, 算出這個連結最主要的三個傳教士, 也就是被最多人看到的分享者, 因為在實務上最有價值的是傳教士, 而不是第一個分享的意見領袖, 但寫到這邊覺得也是可以列出來.

而在商姐的發想下, 做出關聯文章的關鍵字分布, 從這邊可以看到這連結分享的因子分析, 其中包含是因為甚麼樣的議題, 甚麼樣的媒體, 那一個作者, 那一種族群的人在分享, 例如可以知道像這則討論有關 "馬後砲" 的事情導出一些人名, 只是這部份還要再做調整, 畢竟從關鍵字做分析到真的見解還是須要 "工人智慧" 的解讀.

最後就是關聯文章, 也就是分享這個連結的人也分享那些連結, 這也是資料探勘 (Data Mining) 的 Relation Analysis 出來的, 當然也做過這連結被多少人連結的正規化 (Normalization), 最後只呈現最近兩個月的連結, 因為人只對最近的新聞有感覺, 但還是有一個選項可以列出所有的連結.

上圖的圖例是取自 想捏爆可愛小動物的衝動是正常的嗎? | PanSci 泛科學 基本資料, 可以看得出來這連結第一天就抓到資料, 且到第三天還是有很多人分享, 所以擴散力超過 100 分, 主要傳教士除了泛科學粉絲團之外還包含鄭國威等人, 因子包含泛科學這媒體, 放生這關鍵字, 郭采潔與張德正這兩個人名, 而看後面的關連連結很明鮮多是科技科學相關文章, 以及科技大觀園, 科學不一樣等等網站.

這系統目前說實在的也只能說是 Preview 版, 也就是比 Alpha 好一點點, 所以請大家不吝給我意見與討論, 說不定我可以想到一種方法解答你的想法與問題.

熱門文章