搜索引擎工作原理以及各搜索引擎爬蟲介紹

jiayizhen
jiayizhen
jiayizhen
361
文章
2
評論
2019年11月9日19:04:44搜索引擎工作原理以及各搜索引擎爬蟲介紹已關閉評論 4,264

搜索引擎工作原理以及各搜索引擎爬蟲介紹

從事SEO(搜索引擎優化)工作的人可以比喻成搜索引擎的貼身管家,作為一名合格稱職的管家必須了解所服務對象的習性、愛好、健康程度等。

SEO服務的對象就是搜索引擎,必須對它的運行規律、工作原理、習性、優缺點等都要銘記在心,多多實踐操作,平時實踐的越多,經驗也就越豐富。

搜索引擎是由人創造出來的,所以也是有理可尋的。搜索引擎工作過程有主要有三段工作流程,爬行抓取、預處理及服務輸出。

1.4.1 爬行抓取

爬行抓取是搜索引擎工作最重要的一步,把所有需要抓取的地方抓取回來處理分析,因此如果在抓取這部分出了錯,后面完全就癱瘓了。

回想一下每當我們用搜索引擎輸入關鍵詞后,會出現許許多多所查詢的關鍵詞信息,這個過程是以秒來計算的。這時我們可以想一想,搜索引擎是在1秒鐘之內把所查詢的關鍵詞從廣大的互聯網中逐一抓取一遍,還是事先已經處理好了這部分數據呢。

平時我們上網的時候隨便打開一個網頁的時間也是在1秒鐘之內,這僅僅是打開一個網頁的時間,所以搜索引擎在以秒計算的情況下是不可能把互聯網上的信息都查詢一遍,這不僅耗時也耗錢。

因此現在的搜索引擎是事先已經處理好了所抓取的網頁。搜集工作也是要按照一定的規律來進行的,基本上有如下兩種特征。

? 批量收集:對互聯網上只要是存在鏈接的網頁都收集一遍,耗時在幾周左右。缺點在于增加了額外的帶寬消耗,時效性也不高。

? 增量收集:是批量收集的一個技術升級,完美的彌補了批量收集的缺點。在原有的基礎上搜集新增加的網頁,變更上次收集之后有改變的頁面,刪除收集重復和不存在的網頁。

還有一種比較簡單的方法讓搜索引擎來爬行,自己主動向搜索引擎提交網站,等到一定的時間就會來爬取。不過現在主動提交后再來爬行的速度越來越慢了,最理想的辦法還是順著自然鏈接來收集比較好。這就需要我們在前期做好蜘蛛爬行的入口,一定要找一個和網站自身相關的入口。下面將詳細介紹搜索引擎蜘蛛的情況。

1.各搜索引擎爬蟲介紹

搜索引擎蜘蛛是搜索引擎的一個自動程序。它的作用是訪問互聯網上的網頁、圖片、視頻等內容,建立索引數據庫,使用戶能在搜索引擎中搜索到您網站的網頁、圖片、視頻等內容。一般用法為“spider+URL”,后面的URL(網址)是搜索引擎的痕跡,如果要查看某搜索?引擎是否來爬取過你們的網站,可查看服務器的日志里是否有該URL,同時還能查看來的時間、頻率等……(1)百度蜘蛛:可以根據服務器的負載能力調節訪問密度,大大降低服務器的服務壓力。根據以往的經驗百度蜘蛛通常會過度重復地抓取同樣的頁面,導致其他頁面無法被抓取到而不能被收錄。這種情況可以采取robots協議的方法來調節。百度蜘蛛的用法如下:

Baiduspider+(+http://www.baidu.com/search/spider.htm)(2)谷歌蜘蛛:谷歌蜘蛛屬于比較活躍的網站掃描工具,其間隔28天左右就派出“蜘蛛”檢索有更新或者有修改的網頁。與百度蜘蛛最大的不同點是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。其用法如下:

Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)(3)雅虎中國蜘蛛:如果某個網站在谷歌網站下沒有很好的收錄,在雅虎下也不會有很好的收錄和爬行。雅虎蜘蛛的數量龐大,但平均的效率?不是很高,相應的搜索結果質量不高,其用法如下:

Mozilla/5.0 (compatible; Yahoo! SLurp China; http://misc.yahoo.com.cn/help.html)(4)雅虎英文蜘蛛:雅虎英文蜘蛛的用法與中文蜘蛛不同,其用法如下:Mozilla/5.0 (compatible; Yahoo! SLurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)(5)微軟必應蜘蛛:必應與雅虎有著深度的合作關系,所以基本運行模式和雅虎蜘蛛差不多,其用法如下:

msnbot/1.1 (+http://search.msn.com/msnbot.htm)(6)搜狗蜘蛛:搜狗蜘蛛的爬取速度比較快,抓取的數量比起速度來說稍微少點。搜狗蜘蛛最大的特點是不抓取robot.text文件,其用法如下:

Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07(7)搜搜蜘蛛:搜搜早期是運用谷歌的搜索技術,谷歌有收錄,搜搜肯定也會收錄。2011年搜搜已經宣布采用自己的獨立搜索技術,但搜搜蜘蛛的特性和谷歌蜘蛛的特點還是有著相似的地方,其用法如下:

Sosospider+(+http://help.soso.com/webspider.htm)(8)有道蜘蛛:和其他搜索引擎蜘蛛一樣,凡是高權重網站的鏈接一般都能將其收錄。爬行原理也是通過鏈接之間的爬行,其用法如下:

Mozilla/5.0(compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/;)

weinxin
掃一掃微信聯系我
營銷推廣問題,請加我微信
jiayizhen
  • 本文由 發表于 2019年11月9日19:04:44
  • 轉載請務必保留本文鏈接:http://www.twoforksonelove.com/9231.html
簡單的php網站 _新疆網站開發_網站建設公司如何輔助企業網站打造視覺營銷力_甘肅網站建設_甘肅網站建設 網站建設

簡單的php網站 _新疆網站開發_網站建設公司如何輔助企業網站打造視覺營銷力_甘肅網站建設_甘肅網站建設

我工作有七八年時間了,期間也做過技術培訓中心的講師。在教學過程中,我發現很多學生在進入企業后有些是無法勝任工作的,這里不排除一些因為上課不好好聽講、課后不認真練習的學生;另一方面也有可能企業的線上環境...
重慶網站建設制作_企業定制型的營銷網站有哪些優勢 網站建設

重慶網站建設制作_企業定制型的營銷網站有哪些優勢

重慶網站建設制作_企業定制型的營銷網站有哪些優勢 隨著企業的發展、軟硬件的增加,有一個健壯的自動化運維平臺也是增加效率、減少人力成本,也是很好的方法??上Ш芏嗥髽I不重視運維,認為只要有個人隨便能應付就...
網絡營銷的目標 網絡營銷的目標是什么_網絡推廣公司 seo關鍵詞排名

網絡營銷的目標 網絡營銷的目標是什么_網絡推廣公司

險些所有的運營職員,都在說:我在做網絡營銷,可是,您知道什么是網絡營銷,你有你網絡營銷的目的嗎?所謂網絡營銷,是指以互聯網為手段或前言,舉行營銷,最終贏得銷售、贏得品牌、贏得用戶。人人看好了,是三個贏...
網絡推廣類的網絡營銷形式及其特點是什么_重慶網絡推廣公司 seo關鍵詞排名

網絡推廣類的網絡營銷形式及其特點是什么_重慶網絡推廣公司

互聯網時代的互來使得互聯網營銷變的炙手可熱,各行各業都在為了在互聯網市場中取得一席之地而睜開全方位的網絡營銷戰略。網絡營銷方式與傳統的營銷方式都著很大的差異,本文中分形科技就詳細的為人人先容一下網絡營...