當前位置:首頁>>SEO經驗

如何應對蜘蛛頁面抓取異常↟↟·╃·?

  搜尋引擎在抓取網頁的時候,可能會遇到各種情況,有的頁面抓取成功,有的抓取失敗✘✘·。怎麼顯示一個頁面的實際抓取結果呢?主要是透過返回碼進行示意,代表抓取成功與否和遇到的問題✘✘·。比如我們常見的,有時候開啟一個頁面,頁面一片空白,上面只顯示404✘✘·。這裡的404就是一種返回碼,代表當前抓取的頁面已經失效,遇到顯示404的頁面,如果短期內搜尋,蜘蛛再發現這個URL,也不會對其進行抓取✘✘·。

應對蜘蛛頁面抓取異常

  有時候,會返回503,503返回碼代表網站臨時無法訪問,可能是網站伺服器關閉或者其他臨時措施造成的網頁無法訪問,一般來說,蜘蛛還會繼續抓取幾次✘✘·。如果網站恢復正常,∪RL仍然被當作正常URL處理,如果伺服器一直處於不可訪問狀態,那麼搜尋引擎就會將這些URL徹底從庫中刪除,這就要求我們必須維護網站的穩定性儘量避免臨時關閉的情況發生✘✘·。返回碼403是禁止訪問狀態,一般來說,如同503—樣,如被多次訪問仍處於禁止訪問狀態,就會被搜尋引擎從庫裡面刪除✘✘·。

  在返回碼中,有一類需要格外注意,就是301✘✘·。301代表永久性移除,當前URL被永久性重定向到另外的URL✘✘·。一般來說,因為改版等原因,部分URL需要永久被替換為新的URL,就必須使用返回碼301進行處理,這樣能把權重等並帶過去,避免網站的流量損失返回碼301的最佳化寫法如下✘✘·。

  (1)建立個htaccess.txt檔案✘✘·。

  (2)在 htaccess tx裡寫好返回碼301的跳轉資訊✘✘·。假設舊的URL為abc.com,需要重定向到www.abc.com,需在檔案裡寫如下資訊✘✘·。

  (3)將 htaccess. txt上傳到FTP,然後將 htaccess. txt修改為.htaccess需要提醒的是目前 htaccess只適用於 Linux系統,並需要虛擬主機支援,因此,在考慮 htaccess檔案處理返回碼301的時候,需要檢視虛擬主機是否完全支援✘✘·。實際上,在重定向的處理上存在多種方式,簡單來說,重定向可以分為h30重定向│☁↟、 meta refresh重定向和js重定向✘✘·。另外,大的搜尋引擎公司,比如谷歌和百度都確認支援 Canonica標籤,可以透過制定一個權威頁面的方式,引導蜘蛛只索引一個權威頁面,從實際效果上來說,也是一種間接的重定向✘✘·。在實際抓取過程中,蜘蛛會對各種重定向效果進行識

  ✘✘·。重定向的方法有多種,但是從SEO角度來說,如果是永久跳轉的頁面,儘量採用返回碼301的跳轉方式✘✘·。另外,從時間結果來看,百度對 Canonica的支援並不如谷歌好,採用 Canonica未必能得到如期效果✘✘·。有些網站透過不同的路徑進入同一頁面,可能會出現多個URL的情況,當面對這種情況時,可能需要一些處理技巧,關於Canonical的使用技術可參見本書關於 Canonical的專門講解外鏈等因素對搜尋的排名是有影響的,那麼在抓取環節是否也有影響呢?百度在它的抓取政策上有優先順序的說明,即執行包括“深度優先遍歷策略│☁↟、寬度優先遍歷策略│☁↟、PR優先策略│☁↟、反鏈策略│☁↟、社會化分享指導策略等”✘✘·。同時,這也說明每個策略各有優劣,在實際情況中往往是多種策略結合使用才能達到最優的抓取效果✘✘·。從這段官方說明裡面可以看到PR優先策略│☁↟、反鏈策略│☁↟、社會化分享等字眼,我們可以認為,百度在實際抓取的時候,其實都考慮了這些因素,只是權重可能有所不同,因此,儘量提高網頁PR,增加更高質量的外鏈,進行高質量的社會化分享,對網站的SEO工作是有積極意義的✘✘·。

  另外,針對網際網路存在的大量“盜版”“採集”的網頁情況,在抓取的過程中,蜘蛛會透過技術判斷頁面是否已經被抓取過,並對URL不同但是實際內容相同的頁面的URL進行歸一化處理,即視作一個URL✘✘·。也就是告訴SEO人員,不要透過大量建立頁面的方式來獲得更多的搜尋資源,如果頁面很多,但是每個頁面的內容重複性很高或者僅是URL中包含無效引數來實現多個頁面,搜尋引擎仍然把這些URL當作一個URL處理,即網站頁面不是越多越好,透過功利的方式拼湊網頁,大量部署長尾,但是頁面質量堪憂,效果會適得其反✘✘·。如果大量此類頁面被搜尋引擎判斷為低質量頁面,可能會影響到整站的SEo效果✘✘·。

文章來源••☁·:重慶SEO·╃│,家專業從事重慶網站最佳化·╃│,重慶建網站·╃│,百度關鍵詞排名的公司·╃│,有相關需要請聯絡QQ••☁·:470891619>
野花www在线观看免费播放,国产精品无码无卡在线播放,免费人成在线视频无码软件,乱人伦视频中文字幕