碼迷,www.tparu.icu
吉利平特名人堂 > 其他好文 > 詳細

牛人平特肖:爬蟲要具備的準則:

時間:2019-05-23 18:27:20      閱讀:12      評論:0      收藏:0      [點我收藏+]

吉利平特名人堂 www.tparu.icu 標簽:一個   不同的   結果   簡介   百度公司   article   準則   論文   網站   

  不能犯法:

      一定要遵循Robots協議:

      

 Robots協議(爬蟲協議)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。該協議是國際互聯網界通行的道德規范,雖然沒有寫入法律,但是每一個爬蟲都應該遵守這項協議。
下面以淘寶網的robots.txt為例進行介紹。
這里僅截取部分代碼,查看完整代碼可以訪問 
 https://www.taobao.com/robots.txt。

  
  User-agent:  Baiduspider    #百度爬蟲引擎
    Allow:  /article     #允許訪問/article.htm、/article/12345.com
    Allow:  /oshtml
    Allow:  /wenzhang
    Disallow:  /product/ #禁止訪問/product/12345.com
    Disallow:  /           #禁止訪問除Allow規定頁面外的其他所有頁面
    User-Agent:  Googlebot   #谷歌爬蟲引擎
    Allow:  /article
    Allow:  /oshtml
    Allow:  /product     #允許訪問/product.htm、/product/12345.com
    Allow:  /spu
    Allow:  /dianpu
    Allow:  /wenzhang
    Allow:  /oversea
    Disallow:  /

 


在上面的robots文件中,淘寶網對用戶代理為百度爬蟲引擎進行了規定。
以Allow項的值開頭的URL是允許robot訪問的。例如,Allow:/article允許百度爬蟲引擎訪問/article.htm、/article/12345.com等。
以Disallow項為開頭的鏈接是不允許百度爬蟲引擎訪問的。例如,Disalow:/product/不允許百度爬蟲引擎訪問/product/12345.com等。
最后一行,Disallow:/禁止百度爬蟲訪問除了Allow規定頁面外的其他所有頁面。
因此,當你在百度搜索“淘寶”的時候,搜索結果下方的小字會出現:“由于該網站的robots.txt文件存在限制指令(限制搜索引擎抓?。?,系統無法提供該頁面的內容描述”,如圖1-1所示。百度作為一個搜索引擎,良好地遵守了淘寶網的robot.txt協議,所以你是不能從百度上搜索到淘寶內部的產品信息的。淘寶的Robots協議對谷歌爬蟲的待遇則不一樣,和百度爬蟲不同的是,它允許谷歌爬蟲爬取產品的頁面Allow:/product。

除了上述Robots協議之外,我們使用網絡爬蟲的時候還要對自己進行約束:過于快速或者頻密的網絡爬蟲都會對服務器產生巨大的壓力,網站可能封鎖你的IP,甚至采取進一步的法律行動。因此,你需要約束自己的網絡爬蟲行為,將請求的速度限定在一個合理的范圍之內。
提示
本書中的爬蟲僅用于學習、研究用途,請不要用于非法用途。任何由此引發的法律糾紛,請自行負責。
實際上,由于網絡爬蟲獲取的數據帶來了巨大價值,因此網絡爬蟲逐漸演變成一場網站方與爬蟲方的戰爭,你的矛長一寸,我的盾便厚一寸。在攜程技術微分享上,攜程酒店研發部研發經理崔廣宇分享過一個“三月爬蟲”的故事,也就是每年的三月份會迎來一個爬蟲高峰期。因為有大量的大學生五月份交論文,在寫論文的時候會選擇爬取數據,也就是3月份爬取數據,4月份分析數據,5月份交論文。
因此,各大互聯網巨頭也已經開始調集資源來限制爬蟲,?;び沒У牧髁亢圖跎儆屑壑凳蕕牧魘?。
2007年,愛幫網利用垂直搜索技術獲取了大眾點評網上的商戶簡介和消費者點評,并且直接大量使用,大眾點評網多次要求愛幫網停止使用這些內容,而愛幫網以自己是使用垂直搜索獲得的數據為由,拒絕停止抓取大眾點評網上的內容,并且質疑大眾點評網對這些內容所享有的著作權。為此,雙方開打了兩場官司。2011年1月,北京海淀法院做出判決:愛幫網侵犯大眾點評網著作權成立,應當停止侵權并賠償大眾點評網經濟損失和訴訟必要支出。
2013年10月,百度訴360違反Robots協議。百度方面認為,360違反了Robots協議,擅自抓取、復制百度網站內容并生成快照向用戶提供。2014年8月7日,北京市第一中級人民法院做出一審判決,法院認為被告奇虎360的行為違反了《反不正當競爭法》相關規定,應賠償原告百度公司70萬元。
雖然說大眾點評上的點評數據、百度知道的問答由用戶創建而非企業,但是搭建平臺需要投入運營、技術和人力成本,所以平臺擁有對數據的所有權、使用權和分發權。
以上兩起敗訴告訴我們,在爬取網站的時候需要限制自己的爬蟲,遵守Robots協議和約束網絡爬蟲程序的速度;在使用數據的時候必須遵守網站的知識產權。如果違反了這些規定,很可能會吃官司,并且敗訴的概率相當高

 

爬蟲要具備的準則:

標簽:一個   不同的   結果   簡介   百度公司   article   準則   論文   網站   

原文地址:https://www.cnblogs.com/King-boy/p/10913524.html

(0)
(0)
   
舉報
評論 一句話評論(0
0條  
登錄后才能評論!
? 2014 吉利平特名人堂 版權所有 京ICP備13008772號-2
迷上了代碼!
LG游戏平台 双色球历史数据查询 猫盘为什么提现不了 广东11选5稳赚不赔 如何打印彩票投注单 大乐透开结果走势图 幸运飞艇计划软件预测下载 3d买组六稳赚法 赛车5码技巧稳赚方法 pk10冠亚和赔率稳赚 稳赚不赔买彩绝招 奇趣腾讯分分彩免费计划软件 赌徒为什么战胜不了贪念 快3稳赚和值投注技巧以及方法 排列三组选6技巧高手 后三组六复式稳赚技巧