解釋網頁的四種類型,熟悉網頁的分類。
顧名思義,被抓取的網頁就是被蜘蛛抓取過的網站內容。待爬取是尚未被爬取但已進入等待列表的頁面??勺ト〉氖巧形凑业降呀洿嬖诘捻撁?。暗網是搜索引擎通過鏈接自行抓取找不到的頁面,需要手動提交。
通常我們分析的頁面抓取主要是非暗網的頁面抓取,每個搜索引擎都有自己獨特的算法,所以不做過多分析。
搜索引擎的抓取策略有兩種,即廣度優先策略和深度優先策略。
廣度優先策略的解釋
大多數網頁除了自己的鏈接之外,還有很多鏈接。例如,詳細信息頁面有相關新聞和相關案例的鏈接。當一個搜索引擎訪問一個頁面時,將頁面上的所有鏈接依次入庫,然后對找到的頁面進行爬取,再將新發現的URL入庫進行爬取。按照這個邏輯,依次爬行就是廣度優先策略。如圖:抓取順序為1-2,3,4-5-11-6-12-3-7-13-8-14。用圖文了解自己。
深度優先策略的解釋
按照頁面上的一個鏈接一層一層爬,直到爬完最后一個鏈接,然后回到初始位置用同樣的方法爬完剩下的鏈接,這就是深度優先策略。
無論是廣度優先還是深度優先,只要有足夠的時間,搜索引擎都可以抓取所有的頁面,但是搜索引擎的抓取能量是優先的,不能保證抓取頁面的全面性。搜索引擎由于自身資源的原因,不得不考慮抓取頁面的優先級。還有另外兩種抓取策略。
重要網頁的優先抓取策略
總之,搜索引擎的資源是有限的。在搜索引擎資源有限的情況下,盡量依靠外部鏈接來引導蜘蛛,提升網站權重。這是SEO搜索引擎優化網站長期運營最重要的。