第768章 爬蟲_大時代之巔_思兔 
思兔 > 綜合其他 > 大時代之巔 > 第768章 爬蟲

第768章 爬蟲(2 / 2)

因為大四寫論文,可用穀歌、百度、微點等搜索引擎,卻搜不到彆人寫的相關論文。怎麼辦?就有計算機係的學生,自己寫了段爬蟲算法。

然後成功的爬取到了幾百篇相關論文。

接下來就好辦了,摘抄、重組、整合。

如果查重不過關,也簡單,用穀歌翻譯,先漢譯英、再英譯漢。再人工地把句子整理通順,查重就順利通過。

可能是北科的創業環境被周不器給帶起來了,那倆大學生就有了通過技術牟利的心思,玩起了幫同學寫論文的生意。

被發現後,倆人都被開除了。

要不是周不器出麵力保,上繳了非法所得,並安排到了校內網工作,他倆說不定就要蹲監獄了,前程就全毀了。

王小船接著說:“這是靜態網站的爬取,如果是優酷、朋友網的這種動態頁麵,算法會相對複雜。可不管怎樣,這都是很基礎的工具。我們做搜索引擎,難點已經從複雜性變為規模量了。”

周不器皺皺眉,“老馬……就是阿裡的那位。他跟我說,要屏蔽百度對淘寶的爬蟲,怎麼回事?”

王小船笑道:“這事也簡單,爬蟲和網站之間有一個爬取協議,業內叫robot協議。這個協議會聲明,該網站的哪些內容可以爬取,哪些內容不能爬取,並規定白名單裡的爬蟲可以爬取主頁內容。淘寶如果要屏蔽百度,隻需要把百度的爬蟲加到黑名單裡就行了。”

“嗯!”

周不器點了點頭。

這就是他想要的答案。

爬蟲黑名單!

王小船似乎看出了什麼,試探著說:“老板,你……你要對百度下手嗎?”

周不器道:“我看了一下微知網的數據,過去3個月,有超過11億的訪問量,是來自百度。”

王小船沒有驚喜,深吸了口氣,憂心忡忡的說:“微知的訪問量本來就不高,如果屏蔽了百度,流量就更低了。”

周不器並不在乎,“微知不需要流量,微知需要的是優質內容。你都說了,百度的算法不如穀歌,很難通過簡單的數據處理完成對一些有深度內容的檢索,來爬取微知的內容,是簡潔途徑。有不少用戶都是通過百度來訪問微知,我們要斷了這條線!”

王小船眨眨眼,“真要屏蔽嗎?”

“當然。”

“可robot協議沒有法律效力。”

“啥?”

“這個協議,是一種行業約束,君子協定,不是法律條文。如果百度真想爬取微知的內容,完全可以通過技術手段跳過協議,強行爬取。”

周不器若有所思,“君子協定啊……如果強行爬取,有違商業道德?”

王小船點了點頭,“可以這麼理解。”

心中深深的不以為然。

商業道德?

這東西是一層窗戶紙,一捅就破。

“如果違反了怎麼辦?”

“國外有過類似的案子,違反了協議,也被處罰了。因為法官認為這個協議雖不是法律條文,但作為廣泛被接受的行業規則,就應該被遵守。不過國內好像不太行。就像rss聚合器似的,可以去各個網站上訂閱信息。網站拒絕了rss訂閱,依舊可以通過技術手段強行訂閱。”

周不器想了一下,語氣輕鬆,笑著說:“沒事,百度在美國上市,不敢玩的太出格。先這麼做吧,第一步,微知網屏蔽百度的爬蟲。你這邊也做準備,我打算一步步的、全麵徹底的跟百度切割。”

王小船睜大眼睛,“全都切割?”

周不器淡淡地道:“對!”

“這行嗎?”

“你覺得切割了,對誰的危害更大?”

“這……”

王小船有些猶豫,不太好說。

周不器冷冷的道:“紫微星不主動欺負彆人,卻也不會任人欺負。百度從校內網挖了十幾個人,把一個滿建製的小組都給挖走了。不亮亮肌肉,李大老板以為我脾氣好,好說話呢!”

都屏蔽了,當然對微點搜索最有利。

可王小船格局沒這麼小,不認為這是個好主意,好心的提示一句,“咱們自身的利益也會受損。百度是最大的搜索引擎,是流量分發平台。”

周不器卻很有信心,“平台的優勢是輕量級,劣勢是容易被人卡脖子。聯想電腦品牌這麼響,你知道聯想最怕什麼嗎?最怕微軟的係統授權和英特爾的芯片斷供。每一次發生分歧,都要支付一大筆錢。如果把百度比作聯想電腦,紫微星就需要成為最大的零配件供應商。微知、朋友網、校內網,接下來,我們還會有今日頭條和微博。比比看!”



最新小说: 1959:攜帶成就係統,她卷了 召日 進擊的巨人之永恒巨人 四合院:將軍從截胡秦淮茹開始 重生成短命蘿莉隻能活三年 懸崖之下,大佬教我修仙 萬人迷師尊,徒弟各個想以下犯上 全球高武:我卻在打怪升級! 自帶空間的天才女娃 人權卡!剛出卡池,刀哭全世界