2010年8月22日 星期日

對自我產品的信心

有時我總對自己做的東西沒甚麼信心, 從 Plurk.tw 一直到做了很多延伸的應用, 尤其自己知道美工排版不行, 所以常找人合作, 其中一個東西就是 "噗熱浪"...

事實上 Plurk.tw 比 Plurktop 還早做, 當然我們這邊只能從發文說開始運作開始的日子, 因為噗熱浪目前還在 beta 的 beta, 還沒開始說...

2009/06/20 推噗排行榜發 佈 (Re-Plurk)
2009/08/11 PlurkTop 轉噗排行榜 – 挑戰如何找出 Plurk 上最新熱門話題

我相信知道 plurk.tw 的計劃的人, 知道 plurk 熱門話題的方法做了很多, 比 6 月 20 前做的更多, 但最接近的是這個了..

而我很配服 plurktop 的人, 畢竟這是個吃力不討好的工作, 所以我做了一下, 就想說把這資料匯出去用不同形式的方面去呈現, 即使是相同的東西, 不同的介面也是會造成不一樣的結果, 因此跟本這沒有誰抄誰或誰先發想的問題, 因為做過系統的人知道, 想法與創意有時跟本不值錢, 真正的是執行力..

當然我知道 MMDays 他們對自己做的東西相當有信心, 我也認為有相當的價值, 因此對於會覺得別人去抄他們或所謂介接資料比較敏感是真的, 像我就一直把我產出的資料當作是 Public Domain, 畢竟這不是我原生的, 我只是去觀察大家行為所產生的, 不認為自己該有任何權力, 自然被人抓我也不會覺得如何阿, 但我也知道我的想法只是少數, 沒必要去要求別人...

所以看到 MMDays 這樣說, 我也只是笑笑, 這只要說清楚就好, 即使最後發現是誤會一場, 我也不會叫 MMDays 說甚麼的, 雖然我當時看到:

所以,癮科技,我們的要求如下:

  1. pp.cool3c.com 立刻關站 pp.cool3c.com立刻停止從plurktop撈資料
  2. 在 engadget blog 上面立刻公開道歉,道歉文必須是置頂文三天,並公布事情經過,說明是誰做出這樣的事情
我直覺是想到要不要對賭一下, ..... 嗯, 這是開玩笑, 畢竟我也是老經驗了, 知道這種誤會的事在所難免, 沒必要弄成這樣子, 但我唯一覺得心情不高興的反而不是 MMDays, 而是 XDite, 因為她第一時間就在自己的部落格寫了一篇, 且相當有自信的就這樣 "合理的懷疑", 害我愣住了一下 XDite 怎可能沒看到一句話:



有一個來自 76.74.155.106的IP,從三個星期前開始,幾乎定期上來撈Plurktop的頁面,幾乎一秒鐘一頁(哪個人看網頁這麼快?)有時一天只撈30 次,有時一天撈200次,前後下來已經撈了七千多次。

看到這句話也大概知道這系統該如何完成的人, 知道 3 星期 21 天撈 7千次, 也就是每天撈 350 次網頁, 要從這邊組成 "噗熱浪" 真的不太夠阿, 因為這平均每天 350 次資料, 真的是說 Plurktop 每天至少被轉噗了 350 次阿, 這代表 Plurktop 的確是夠有價值被轉噗, 即使扣掉自己的機器人也不會少多少, 所以我在這邊是很訝異 Plurktop 真的很不簡單阿..., 因此所謂這 7000 筆抓取, 就是 Plurktop 的網頁與網站被推噗 (且進資料庫) 的網頁數, 而我們是去抓這網旨的標題與內容去做分類.. (因為噗熱浪有內文關鍵字判斷分類的機制).

只是這 7 千次, 是占我們 4百50萬筆資料的 0.16% 阿, 目前已經掃入的網址大約是這數字, 下圖就是已經抓到還沒有處理過的原始資料, 因此, 有真的做過這種轉噗系統的人應該知道, 不可能靠這麼少筆資料來組出這樣的東西, 因此連我處理都很頭痛了, 而 Plurktop/MMDays 他們雖然抓的噗浪使用者數沒有 Plurk.tw 多, 但我也知道這是相當不簡單的事....



也是因為這樣, 難道 XDite 相信我的能力以技術只靠這 7000 筆資料能夠推算出更複雜的資料, 這樣真的是過於高估我了, 因為我還是很白癡的一個噗一個噗去分析 (Parse), 事實上每天 Plurk.tw 大約是每天抓 150 萬~ 250 萬次的資料才能組出來的, 即使我不辛苦, 我的程式或我的機器人也很辛苦的, 請大家可以誤會我是懶惰的人, 事實上我也是.... 但千萬不要認為我的 Server (伺服器) 很懶惰阿... (但還是有時會鬧情續罷工)

所以我相信 MMDays 以及讀者應該會了解了, 但就我之前的經驗就是 XDite 的讀者以後會一直傳, 然後見到我就問: "聽說你抓了別人的資料 backend 來當自己的網站阿"... 這才是讓我覺得煩人的地方阿, 因為 XDite 肯定早就認定我是這樣的人, 真慘阿...

Anyway, 請大家若以後抓我的資料/文章/程式是完全不用過問我, 也不用說是我弄的, 這句話我已經說過很多次了, .. (唉, 但好像會來找我要資料的人是不會看我的部落格的)...

24 則留言:

  1. 看MM那一篇,借題發揮的感覺很大,還是心情太不爽?

    我每天都被yahoo和google砍到暴,早就做限制來自動偵測連線數和砍站行為了...
    如果超過一定量,應該會被歸類為砍站行為,既然沒超過,那就soso啊...
    還是說,該主機根本沒有防砍站!(驚!)

    回覆刪除
  2. @Jimmy,
    但若是 Google 的話, 只要去 Webmaster Tools 就會修改抓取時間...

    我後來想想, 若他們真的仔細看那 7000 筆, 會發現跟本無法重組出站的, 明顯是抓熱門網頁的標題的... 真的是太早開槍.. (或者是見獵心喜?)

    回覆刪除
  3. 我的意思是,其實這件事跟砍站無關..

    不過我剛剛仔細看完你的文章,才又發覺.. 原來只是正常在plurk上面掃描出來的url @@

    問題是,你的文字需要翻譯一下,別人才看的懂啊
    搞不好你去看看噗熱浪的 GET記錄,也會有 plurktop掃到你們的link啊 XD

    回覆刪除
  4. 1非也...臺灣人的特性使然,只看到自己認為的,連查證/問都不問,只查到他自己認為的。
    所以臺灣人才那麼容易被"操作"

    回覆刪除
  5. 我是相信以部落格觀察的技術是不必做這種事。但是,這種規律性的Access Log(每天抓固定筆數)很難解釋這只是bot的行為。

    個人建議閣下能把造成這種Access Log的Code片段提出來。從技術性的角度來看,就能夠輕易的證明您的清白了。

    回覆刪除
  6. 每天用程式讀人家沒有開放API的網站,而且兩個網站還是同性質內容,本來就該事先打個招呼。

    我相信你們在法律道德上站的住腳,但如果沒打過招呼,那就難怪事主的感覺會不好了。

    回覆刪除
  7. @Derek:

    每天規律的筆數? 我也是很好奇怎會有這現像, 理論上即使每天 Plurktop 都有人在推噗與轉噗, 到也不太可能是每天數字都一樣阿? 他們倒是沒有說是每天幾次? 你有沒有更確切的數字?

    基本上我會寫出整個流程, 然後說是那個環節造成的問題, 而所謂的片段程式碼, 我會請 james 來想辦法 "截取", 但有沒有第三方的人能夠親自來看完整程式碼嗎?

    回覆刪除
  8. 那是否該先打個招呼?
    每個人觀念都跟你一樣嗎?你認為別人抓取資料不必問過你,憑甚麼你的價值觀就要凌駕於對方之上,這根本很基本的作人道理。

    教你一下,請至少為了避嫌打聲招呼。

    回覆刪除
  9. @匿名:

    若這樣的話, 他們在抓我這網站資料時也沒跟我打招呼阿, 若他們跟我打招呼的話, 我就會用他們的價值觀跟他們打招呼....

    回覆刪除
  10. 就像是開車開的好好的,結果被人家撞
    他還指責你亂踩煞車....
    旁邊的路人看到,還一直採信你亂踩煞車這件事
    甚至一在的傳播出去
    就算真的沒有的事,一再的解釋也是很煩~

    回覆刪除
  11. 每天google和yahoo也有在抓你的網站,google和yahoo也沒有打招呼啊...這種spider,很常見,只是要看spider做的"事情"是什麼.

    回覆刪除
  12. 老黑我們互不相識~ 只是過來打打氣~ 現在的小朋友上了Blog有點名氣後..就好像喝了酒握方向盤一樣 .. 搞不清楚東西南北 ..

    我從來不知道指控人家"涉嫌"後 ..就可以下結論
    "馬上給我公開道歉並置頂三天" !!! .. (東廠?)..

    anyway..我說喔你們用自己的IP去爬,只能說太老實了 (地球上的免費 proxy 那麼多)..

    只是路人

    回覆刪除
  13. @只是路人:

    又不是甚麼見不得人的事, 呵....

    當然若他們知道弄錯了後, 會不會也 "馬上給我公開道歉並置頂三天"... 唉, 真的是道德情操很高的人...

    回覆刪除
  14. @黑膜:事實上我無法確認是不是規律的筆數,只是從MMDAYS的說法,加上您自己的說法「每天350筆」來推想的。事實上連您都不知道有多少筆,您使用平均這個數字很容易讓人家誤會,要從Access Log分辨BOT的行為跟水管的行為其實不困難。一般而言若是水管的話會很規律的在一定的時間抓資料。


    另外,您的程式碼也不一定要交給第三方來幫您說話,只要公佈在網路上(當然不需要詳細公佈所有的計算公式,這些也是機密。)在下相信會有很多高手做出公證的評價,Code是不會說謊的。

    回覆刪除
  15. (純粹路過)
    如果對方的指控不實,令你蒙受損失(不論經濟上、名譽上還是精神上),你可以提告啊。讓法律公平處理就好,即使不要對方作金錢賠償只要對方公開道歉也好,總之來個心安理得,以後不用被煩「聽說你抓了別人的資料 backend 來當自己的網站阿」嘛。
    (不過你有沒有法律顧問或律師朋友?)

    回覆刪除
  16. @Derek:

    因為我真的沒有刻意去 plurktop 去抓資料, 我當然不知道確切的數字, 所以才問您阿...

    基本上這程式碼散落在各個程式, 且都是一段段, 不知道要如何公布之後避免 SQL Injection 的問題? 所以我才想找個第三方來公證, 來看全部的程式碼? 也希望越快越好, 不然就會被人認為我們隱藏資訊... 您有興趣嗎?

    回覆刪除
  17. @匿名:

    若你知道最近有個不起眼的新聞, 判 104 在 2000 年被告的事情, 罰 200 萬...

    過了 10 年後, 你希望有這判決後得到甚麼呢?

    我可沒這精神跟他耗 10 年...

    回覆刪除
  18. @黑貘:我個人是希望有榮幸能幫這個忙,也見識見識高手的Code,不過我人微言輕,恐怕講出來的話也難以服眾吧,不如找重量級的人士,比如XDite或是ericsk,我相信會比在下更有效呢?

    回覆刪除
  19. 不少錯字,例如:配服, 跟本, 還有阿

    回覆刪除
  20. 樓上匿名寫的雖然是題外話,不過我也覺得,黑貘作為「網路名人」,發文前應該要多審一下文章,讓錯別字少一點,癮科技也稱您為技術顧問,尤其這又是個解釋文,歧義字容易造成誤會喔。

    回到主題,剛去看了 jas9 的文章,感覺有點到一些人的心態,或許可以琢磨一下。

    個人感覺這事情挺無俚頭的,所以...加油吧!

    回覆刪除
  21. 兩邊都是我蠻欣賞以及佩服的人
    看下來應該是誤會的可能性比較大
    誤會是在所難免
    大家講清楚就好

    回覆刪除
  22. 好奇查了一下mmdays.com (因為一看到bendwidth,職業病就自動反射).. 靠夭~ 原來是租用國外的虛擬主機 , trace了一下DNS, 還是放在godaddy這種三流的hosting ..(機房是softlayer).. 有點大失所望 ..(IP跟DNS我就不po了 ..有興趣的朋友自己上dnsstuff.com去查)

    所以..睡覺去 ..晚安

    回覆刪除
  23. 請問
    部落格觀察現在更新變的很不定期
    而且數據不完整錯誤很多
    官方討論區又無法進入
    一直都是顯示error
    大家發出問題也都得不到回覆
    現在搞的使用者有問題求助無門
    這樣不聞不問實在不該是這種態度
    在禮貌上也該向大家說明一下原因好嗎?
    謝謝

    回覆刪除

熱門文章