IMHO, 黑貘來說: 噗熱浪官方說法前後 -- 回應不實指控以及關心事件發展的噗友

2010年8月23日星期一

噗熱浪官方說法前後 -- 回應不實指控以及關心事件發展的噗友

我昨天寫那篇, 就假設這是給一些技術人來看的一小段文章, 再加上自己的許多苦水吐一吐, 無法成為正式的官方聲明, 但這不是只有我一個人的事, 所以我在還沒官方處理之前先自己來澄清, 很多人說看不懂是真的, 以下是節錄聲明的前面一段:

事實的真相

　　我們必須聲明，噗熱浪絕對、從來沒有以該網站所稱之方式，進行所謂竊取的動作，在噗熱浪上的所有熱門轉噗網頁記錄，都是經過我們自行開發的程式所計算出來的結果，絕對不存在所謂「接水管」的行為，我們也不能接受如此的指控。那麼，誤會是如何造成的？
　　的確，我們的程式曾經造訪過該網站，但絕不是全面性的抓取該站資料。由於在噗熱浪網站會對被轉噗的網頁進行和搜尋引擎類似的內容摘要動作，並且對其內容作分類，以便在噗熱浪上讓網友有更完整的參考資訊，這也是噗熱浪目前和該網站最大的不同之處。因此當噗熱浪計算的熱門網頁中，出現該網站之網頁時，程式便會前往造訪該網站，並進行網頁部份內容摘要，這個動作在程式裡對所有網頁的處理是一致的，並沒有針對性。
　　也就是說，該網站提出的證據是真實的，但並不等同於噗熱浪去盜取該站資料，只是該站的網頁被轉噗了，程式就會前往造訪，用意絕不是盜取那些資料，然後放到噗熱浪上來。更何況，以這種方式獲得的資料量，和目前噗熱浪所處理的資料量，差距很大。相關技術說明，可見噗熱浪技術顧問所提出之說明 http://geneoralspeaking.blogspot.com/2010/08/blog-post_22.html。

當然我上一篇有人叫我只寫下面一段就好:

因此所謂這 7000 筆抓取, 就是 Plurktop 的網頁與網站被推噗 (且進資料庫) 的網頁數, 而我們是去抓這網旨的標題與內容去做分類..

這兩段事實上是大同小異的...

當然最後剩下來討論的是 "OK, 你們即使不是接水管的 Backend 的資料來做的, 但你們還是有來抓資料, 這個不是應該打招呼或事後道歉嗎? " 這樣的議題, 例如有人說: "不要把人當笨蛋了，你爬mmdays的資料還沒跟mmdays道歉... 如果說人家摸你東西你無所謂，不代表你摸人家就ok 模糊地帶本來就該以和為貴..." 出這樣嚴重的事, 當然我說我當然願意道歉, 只是我剛看了一下, 我這個部落格也被爬走了標題, 這樣是否他也該發個道歉啟事呢?

我很肯定這不是從我的噗抓到的, 因為我的噗沒也截圖, 原標題寫的是: 我原本很不想回應的, 但後來討論了之後還是得澄清一下這樣的字句, 不用看 Log 也知道他們有來爬我的網站, 雖然這又拉回來了, 會不會是雙方在五十步笑百步或者這只是雙重標準呢?

(上面的截圖取自於 Plurktop, 但未經過同意, 所以我在此抱歉, 也希望對方對於此行為道歉?)

但這個是小事, 因為這種誤會說清楚就好, 就怕會有高道德標準的人開始延續戰火, 但這也還好, 最大的問題就是善後...

記得前一陣子有個姓邱的名嘴說過: "只要爆料的事情, 十件有一件是真的, 就對社會有意義, 更何況他是每十件有兩件是真的", 當然這句話是沒錯啦, 但比較可憐的另外八件事的苦主被冤妄後, 名譽受損, 工作丟了 , 家庭失和, 還付出一堆慘痛, 但唯一的作法大概只能在地上畫圈圈, 而邱先生大概只能說: "對不起, 為了這社會好, 你這犧牲是有代價的"...

我剛去噗浪河道看了一下, 未經過認真統計作了這樣的分析:

30%: OK, 我相信噗熱浪的確不是去接水管, 這件事是誤會.
20%: 看不懂你們兩方在說甚麼, 純看熱鬧.
10%: 雖然我知道大家在說甚麼, 但是否有更高的道德去保障甚麼呢?
40%: 你們噗熱浪好糟糕阿, "需要的結果一樣，所以直接偷接"

雖然就數字上來看, 有 4 成的人已經接受噗熱浪的說法, 但還是有相對應的人信任 MMDays 與 XDite 的說法, 因此看得出來他們真的具有很高的影響力阿....

因此我相信最後他們即使願意澄清, 但我也只好去趕緊找塊較大的地來畫圈圈了.

PS. 雖然這不是甚麼 "作賊心虛", 但應該會把 Plurktop 的 IP 封起來, 雖然他們被不少人推噗, 即使想要保持資料的完整性, 但別人不想要的話還是要尊重別人, 因此若是他們的網頁若是進到排行榜, 就來弄個 : "這個 Plurktop 的網站的標題不想被人抓" 的標題好了... 呵呵.. (這句話是亂入)

2 則留言:

liaommx2010年8月23日下午3:38
我來用我的解讀來翻譯一下..
噗熱浪和PLURKTOP都是用機器人來抓取所擷取到的url,
plurktop認為那7000多筆資料全都是噗熱浪為了抓取plurktop處理過的資料而來的

但是噗熱浪這邊認為是機器人是為了抓取pu出來的url,而連結到plurktop的網頁內容(因為兩邊都會針對pu出來的url做網頁的處理)
差別在於後者算是正常的處理內容.前者則是原封不動的重置放到網頁上,

後者就好像google和yahoo搜尋引擎,都會互相爬到對方的網站,也會忠實的呈現出來,
但是前者則是像之前百度和google發生的事情,
google暫時停止服務,而百度也停止服務這樣,

不知道我的理解有沒有錯誤?
回覆刪除
回覆
Hayashi2010年8月23日晚上11:03
問題在於google, yahoo, baidu都是 search engine。要不要讓對方爬進去只是爽度問題。但是前提是，除了透過 domain 外還有 agent 可以知道是 crawler。不想被抓內容就可以避掉（當然有的 crawler 不遵守）。
今天噗熱浪會去抓取別人網頁內的內容，也沒錯，因為是網友把網址從plurktop複製過去。不過 plurktop 就不知道那是機器人還是browser，這樣可能就會影響到 plurktop server 對他正常客戶端之間的處理速度和網路流量（如果他的server CPU time和流量都是要算錢的話)。至於噗熱浪有沒有設什麼特別 header or user agent 讓苦主知道，就從公布的 log 看不出來。
回覆刪除
回覆

新增留言

2010年8月23日 星期一

噗熱浪官方說法前後 -- 回應不實指控以及關心事件發展的噗友

事實的真相

2 則留言:

熱門文章

2010年8月23日星期一