因為大四寫論文,可用穀歌、百度、微點等搜索引擎,卻搜不到彆人寫的相關論文。怎麼辦?就有計算機係的學生,自己寫了段爬蟲算法。
然後成功的爬取到了幾百篇相關論文。
接下來就好辦了,摘抄、重組、整合。
如果查重不過關,也簡單,用穀歌翻譯,先漢譯英、再英譯漢。再人工地把句子整理通順,查重就順利通過。
可能是北科的創業環境被周不器給帶起來了,那倆大學生就有了通過技術牟利的心思,玩起了幫同學寫論文的生意。
被發現後,倆人都被開除了。
要不是周不器出麵力保,上繳了非法所得,並安排到了校內網工作,他倆說不定就要蹲監獄了,前程就全毀了。
王小船接著說:“這是靜態網站的爬取,如果是優酷、朋友網的這種動態頁麵,算法會相對複雜。可不管怎樣,這都是很基礎的工具。我們做搜索引擎,難點已經從複雜性變為規模量了。”
周不器皺皺眉,“老馬……就是阿裡的那位。他跟我說,要屏蔽百度對淘寶的爬蟲,怎麼回事?”
王小船笑道:“這事也簡單,爬蟲和網站之間有一個爬取協議,業內叫robot協議。這個協議會聲明,該網站的哪些內容可以爬取,哪些內容不能爬取,並規定白名單裡的爬蟲可以爬取主頁內容。淘寶如果要屏蔽百度,隻需要把百度的爬蟲加到黑名單裡就行了。”
“嗯!”
周不器點了點頭。
這就是他想要的答案。
爬蟲黑名單!
王小船似乎看出了什麼,試探著說:“老板,你……你要對百度下手嗎?”
周不器道:“我看了一下微知網的數據,過去3個月,有超過11億的訪問量,是來自百度。”
王小船沒有驚喜,深吸了口氣,憂心忡忡的說:“微知的訪問量本來就不高,如果屏蔽了百度,流量就更低了。”
周不器並不在乎,“微知不需要流量,微知需要的是優質內容。你都說了,百度的算法不如穀歌,很難通過簡單的數據處理完成對一些有深度內容的檢索,來爬取微知的內容,是簡潔途徑。有不少用戶都是通過百度來訪問微知,我們要斷了這條線!”
王小船眨眨眼,“真要屏蔽嗎?”
“當然。”
“可robot協議沒有法律效力。”
“啥?”
“這個協議,是一種行業約束,君子協定,不是法律條文。如果百度真想爬取微知的內容,完全可以通過技術手段跳過協議,強行爬取。”
周不器若有所思,“君子協定啊……如果強行爬取,有違商業道德?”
王小船點了點頭,“可以這麼理解。”
心中深深的不以為然。
商業道德?
這東西是一層窗戶紙,一捅就破。
“如果違反了怎麼辦?”
“國外有過類似的案子,違反了協議,也被處罰了。因為法官認為這個協議雖不是法律條文,但作為廣泛被接受的行業規則,就應該被遵守。不過國內好像不太行。就像rss聚合器似的,可以去各個網站上訂閱信息。網站拒絕了rss訂閱,依舊可以通過技術手段強行訂閱。”
周不器想了一下,語氣輕鬆,笑著說:“沒事,百度在美國上市,不敢玩的太出格。先這麼做吧,第一步,微知網屏蔽百度的爬蟲。你這邊也做準備,我打算一步步的、全麵徹底的跟百度切割。”
王小船睜大眼睛,“全都切割?”
周不器淡淡地道:“對!”
“這行嗎?”
“你覺得切割了,對誰的危害更大?”
“這……”
王小船有些猶豫,不太好說。
周不器冷冷的道:“紫微星不主動欺負彆人,卻也不會任人欺負。百度從校內網挖了十幾個人,把一個滿建製的小組都給挖走了。不亮亮肌肉,李大老板以為我脾氣好,好說話呢!”
都屏蔽了,當然對微點搜索最有利。
可王小船格局沒這麼小,不認為這是個好主意,好心的提示一句,“咱們自身的利益也會受損。百度是最大的搜索引擎,是流量分發平台。”
周不器卻很有信心,“平台的優勢是輕量級,劣勢是容易被人卡脖子。聯想電腦品牌這麼響,你知道聯想最怕什麼嗎?最怕微軟的係統授權和英特爾的芯片斷供。每一次發生分歧,都要支付一大筆錢。如果把百度比作聯想電腦,紫微星就需要成為最大的零配件供應商。微知、朋友網、校內網,接下來,我們還會有今日頭條和微博。比比看!”