相信多其有所了解的人都明白搜索引擎的變化無常,無法真正認識搜索工作原理,但是無論搜索引擎怎樣變化,大概的收錄原理是不會變的:
1、找到網站的URL并下載頁面。
2、判斷頁面質量是否達到收錄標準收錄頁面,否則刪除。
3、判斷收錄頁面是否更新,更新頁面快照。而且搜索引擎可以分為基本的五大部分,既抓取網頁系統,數據分析系統,存儲數據系統,緩存系統,展示系統。
而且搜索引擎可以分為基本的五大部分,既抓取網頁系統,數據分析系統,存儲數據系統,緩存系統,展示系統。
1、抓取網頁系統:分為探測系統和下載系統,探測系統就是我們平常說的蜘蛛,蜘蛛在互聯網上爬行時探測到一個網站的URL,就會把URL所指向的頁面利用下載系統,下載到搜索引擎的服務器上,然后將頁面交給數據分析系統。
2、數據分析系統:分為數據分析和數據處理兩個系統,當數據分析系統從抓取網頁系統那獲取到被下載的頁面,首先進行數據分析去除不相關的文字或網站重復內容,進行頁面文字的處理,然后對處理過后的頁面內容進行判斷,是否達到收錄標準,達到交給存儲系統,沒有達到刪除。
3、存儲數據系統:將收錄的頁面進行保存,然后定時進行判斷存儲的頁面是否有更新。
4、緩存系統:存儲搜索引擎認為高價值的內容,當用戶搜索某個關鍵詞時經??吹绞珍浟坑袔浊f,但是搜索引擎顯示的只有1000條,這也就是說只有1000條被放在了緩存系統上,用戶可以最快速的查找到他們想要的內容。
5、展示系統:用戶搜索返回到顯示器上的信息。
蜘蛛在整個互聯網上爬行遇見你網站的一個URL,首先把URL提取出來根據網站權重和相關性插入到URL隊列中,然后是判斷你網站的這條URL是否能夠解析成功,如果能解析成功,蜘蛛會爬到你網站,這里需要說一下,蜘蛛并不是直接去分析你網頁的內容,而是去尋找你網站robots文件,根據你網站的robots規則判斷是否抓取你這個頁面,如果robots文件不存在,則會返回一個404錯誤,但是搜索引擎已經會繼續抓取你的網站內容。 所以只要我們能夠很好的明白它的工作原理,我們就能夠比較輕松地進行網站優化。