技術 SEO:如何提升爬蟲檢索效率?

文章目錄

分享給更多人知道

「Search Off the Record」是 Google 搜尋團隊推出的 Podcast 節目,為 SEO 從業人員提供寶貴的建議。其中一集聚焦於網站爬蟲與技術性 SEO 的議題,引發廣泛討論。本文將深入探討該集內容,為讀者提煉出可執行的 SEO 優化策略。

破解常見的爬蟲迷思

許多 SEO 人員及網站管理員對於 Google 爬蟲存在著錯誤的認知,導致優化方向出現偏差。首先,讓我們來破解兩個常見的迷思:

爬蟲檢索次數越多,排名就越好?

許多人誤以為 Google 爬蟲檢索網站的頻率越高,代表網站內容越優質,排名就會越好。然而,Google 搜尋團隊明確表示,這並非絕對關聯。

除了內容品質之外,還有許多因素會影響爬蟲的檢索頻率,例如網站架構、是否遭到駭客入侵等等。一昧追求更高的爬蟲檢索次數,反而可能忽略了更重要的內容品質。

Google 爬蟲像真人一樣瀏覽網頁?

另一個常見的誤解是將 Google 爬蟲想像成真人,依序點擊連結瀏覽網頁。事實上,Google 爬蟲的運作機制更像是「連結收集者」,它會先收集網站上的所有連結,再根據演算法的優先順序進行檢索,而非像真人一樣按順序點擊。

提升爬蟲效率的優化策略

了解 Google 爬蟲的運作模式後,我們可以採取一些策略來提升網站的爬蟲效率,讓 Google 更有效率理解和近一步索引網站內容:

勿過度執著檢索預算

我們需要意識到「檢索預算 (Crawl Budget)」的存在,也就是 Google 爬蟲分配給每個網站的檢索資源是有限的。

然而,Google 團隊強調,不必過度執著於預算的數字,更重要的是專注於構建高品質的網站,提供有價值的內容,並確保網站架構清晰易懂。當網站內容真正對用戶有幫助時,Google 爬蟲自然會分配更多資源進行檢索和索引。

優化伺服器回應時間

伺服器回應時間是影響爬蟲效率的關鍵因素之一。如果伺服器回應緩慢,Google 爬蟲就需要花費更多時間等待載入網頁,進而影響到網站的檢索預算和索引速度。

我們可以使用 Google Search Console 中的「檢索統計資料」報表來監控伺服器的回應時間,並與技術團隊合作進行優化。

GSC 檢索統計資料
GSC 檢索統計資料

正確處理 URL 參數

Google 團隊特別強調了正確處理 URL 參數的重要性。由於 URL 參數可以無限組合,對於 Google 爬蟲來說,要判斷哪些參數組合是有意義的、需要檢索的,是一項巨大的挑戰。

以一個電商網站的產品頁面為例,網址可能是這樣:

https://www.example.com/product.php?id=123&color=blue&size=M

其中,id=123 代表產品編號,color=blue 和 size=M 分別代表顏色和尺寸。

如果網站允許使用者透過 URL 參數篩選產品,那麼 Google 爬蟲可能會檢索到大量參數組合不同的網址,例如:

https://www.example.com/product.php?id=123&color=red&size=S

https://www.example.com/product.php?id=123&color=green&size=L

這些網址雖然參數不同,但實際上可能都指向同一個產品頁面,只是顯示的顏色和尺寸不同。如果 Google 爬蟲檢索了過多這樣的重複頁面,就會浪費檢索預算,影響其他重要頁面的索引。

因此仔細分析網站使用的 URL 參數,並透過 robots.txt 等方式引導 Google 爬蟲檢索真正重要的網頁版本,才能最大限度提升網站 SEO 效益。

應用 304 Not Modified 回應碼

當網站內容沒有更新時,伺服器可以回傳 304 狀態碼給 Google 爬蟲,告知其內容沒有變更,無需再次檢索。這個機制可以節省伺服器資源和頻寬,提升整體的爬蟲效率。

Google 爬蟲會發送「If-Modified-Since」請求標頭,詢問網頁自特定時間後是否有所變更。如果網頁未更新,伺服器就可以回傳 304 狀態碼,告知 Google 爬蟲無需再次下載內容。網站應確保伺服器設置正確,以便在適當情況下回傳正確的狀態碼。

善用 Sitemap,但避免過度依賴

網站地圖 (Sitemap) 是幫助 Google 理解網站結構的重要工具,但許多網站卻忽略了它的正確使用方式。有些人提交格式錯誤或包含錯誤連結的 Sitemap,導致爬蟲浪費資源檢索無效網址。

另一方面,有些網站過度依賴 Sitemap,認為只要提交 Sitemap 就等於獲得好的排名,而忽略了網站內容品質和架構的重要性。

正確的做法是定期更新 Sitemap,確保 Google 能夠即時發現新内容,並使用 robots.txt 和 狀態碼等來輔助爬蟲。

技術性 SEO 的展望

隨著網路技術不斷演進,網站爬蟲技術也將持續精進,技術性 SEO 面臨著挑戰與機遇並存的局面。因此,Google 團隊也針對未來給予我們一些建議及未來的洞見。

GSC 技術診斷報告

Google 考慮更主動通知網站管理員,例如當偵測到伺服器錯誤、DNS 問題或其他技術問題時,直接透過 Search Console、電子郵件發送即時通知,讓 SEO 能夠盡快採取行動,避免問題擴大。

此外,Google 也在規劃更智慧的診斷工具,並提供具體的解決方案,例如自動分析伺服器 Log,找出潛在的爬蟲問題讓我們不需要自行摸索解決問題的方法。

加強三方之間的溝通

Google 搜尋團隊也呼籲加強網站擁有者、主機代管商和 Google 三者之間的順暢溝通。他們觀察到,許多爬蟲問題的根源在於主機代管商端的設定,但由於資訊不對稱,網站管理員往往將問題歸咎於 Google。

分塊傳輸技術

更值得期待的是分塊傳輸技術 (Chunked Transfer) 的進化與應用。雖然分塊傳輸技術已經存在,但過去在實際應用上遇到了一些挑戰,導致採用率不高。

未來,更先進的分塊傳輸技術將允許伺服器僅發送更新的網頁區塊給 Google 爬蟲,無需重複檢索整個頁面,進一步提升爬蟲效率,對於需要頻繁更新內容的大型動態網站而言,這無疑是個福音。

Lewis Ko
Lewis Ko
Hi 我是Lewis,曾任職in-house行銷人員,現職某跨國企業的SEO Specialist。熱愛學習最新的科技和知識,努力透過簡單易懂的方式,分享我學習的過程和心得。如果你/妳剛好也在學習SEO、GA、GTM、Looker Studio的道路上,希望我的內容對你有幫助!

延伸閱讀