搜索引擎是現代人從網絡世界中獲取信息的重要工具,無論你有什么問題,都可以在網上搜索出答案。比如百度搜索引擎那句很有名的slogon:百度一下,你就知道。然而,關于搜索引擎的工作原理,相信沒幾個人能說出來。今天,小編就來以百度搜索為例,從頁面抓取、篩查過濾、建立索引、評分排序以及搜索展出幾個方面,為大家好好科普一下搜索引擎的基本工作原理。
百度搜索引擎的工作原理
1、頁面抓取
一旦發現有新的數據信息出現,不管是老站更新,還是新站上線,百度蜘蛛會以很快的速度精準找到你的網站,然后將你網站的所有數據和信息直接打包帶回家給百度搜索引擎。當然,為了能夠讓百度蜘蛛一開始就抓取網站信息,很多網站也會主動提交信息數據給百度搜索引擎。
2、篩查過濾
當百度蜘蛛把抓取的數據信息帶回來以后,百度搜索引擎會對帶回來的信息數據進行一個基本的篩選,也是搜索引擎的基本工作原理之一。比如黃賭毒,還有特殊詞匯信息和數據都會篩掉。那么什么信息和數據會被屏蔽過濾呢?比如說我國管控的物品,或禁止的一些服務,再比如辦退伍證、出售警服、軍火器械等等。還有少兒不宜、有參賭性質、或者與毒品相關的內容都是不被允許的。另外,還有一點大家要注意,沒有價值,不能為用戶提供幫助的垃圾數據信息,比如抄襲的文章、大量采集的文章、鏡像的站點等等,也屬于會被屏蔽過濾的內容。
而優質的頁面,有信譽或者有威望的網站則直接通過篩選進入下一環節。如果百度蜘蛛抓取的頁面信息是原創度高,用戶體驗度高的內容就會被很快通過篩選。百度搜索引擎還有一個白名單,這類被百度直接信任的數據信息一旦有更新,會被馬上抓取,然后建庫索引,直接參與排名。包括一些大型的站點,對社會有用的站點也會受到這樣的優待。
3、建立索引
通過篩選頁面這個環節過后,所有留存下來的信息基本都被判定為優質內容,然后進入建庫索引環節。在這個環節搜索引擎對信息數據進行分門別類。比如:購物網站歸為一類,培訓網站歸為一類,美食網站歸為一類等等海量的數據信息一一分類入庫。搜索引擎每天都要分類海量(按億計算)的各種信息數據,這些數據來自各行各業,但在分類的過程中,搜索引擎會把性質相同的信息數據分到一個庫里。不會出現亂套,雜亂的分類。所謂建庫索引也可以理解為登記造冊,然后準備輸入檔案庫,等用戶搜索相關信息是,搜索引擎就會用正排索引和倒排索引技術到檔案庫里去調用符合要求的內容給用戶,這就是建立索引的意義所在,也是百度搜索引擎的基本工作原理之一。
4、評分排序
評分排名的標準有三點,網站權重、網站與內容相關聯程度、內容的實用性;站內細節優化、網站本身的構架與相應速度。
?。?)網站權重:自來源于哪些網站,然后看下他們網站的年齡。網站年齡越大,百度搜索引擎給予網站的信任分越高。
?。?)網站與內容相關聯程度:網站的內容否與網站主題定位相關,不相關扣分,相關就加分。像掛羊頭賣狗肉,就會嚴重影響用戶體驗。
?。?)內容的實用性:如果內容對有用戶有價值的分,如果不實用,不加分。評判實用的標準有:內容原創度、內容真實度、閱讀量、轉發收藏、用戶停留時間等等。
?。?)站內細節優化:站內優化細節評分,這一環節是重中之重。包括首頁,欄目頁;網頁的URL地址化;圖片Alt屬性、站內的內鏈建設;站外的外鏈建設;還有其它各種的小細節。
?。?)網站自身的結構:好的結構導致網站本身的打開率高。相反JS代碼太多就會扣分,服務器不行也會扣分、圖片上經常不寫標識也要扣分,URL經常帶不開也扣分。
在分析評分階段,百度搜索引擎根據它的評分機制,評分項,算法機制來對頁面給一個初始評分,這個評分有一個標準,每個行業的評分標準是不一樣的。一般來講,行業競爭越激烈需求越大的網站,評分標準越高。低于評分標準線的不能進入site庫,但是會建立索引,等到它超過這個分數線以后,就可以進入site庫,參與排名了。高于評分標準線的進入site庫,并且直接參與排名。
5、搜索展出
當用戶在百度搜索欄輸入關鍵詞并搜索的時候,百度會根據剛說的評分標準一一展示網站的排名。不過這個排名也不是一直固定的,所有的排名都會變動。不過有的網站因為本身的權重很高,網站內的每個頁面的初始分值也很高,因此排名自然也十分穩固。百度把這類網站放入白名單中,白名單中的網站排名基本上不會收到影響。因此,從這個角度來說,任何網站優化的基本準則都必須遵循搜索引擎的評分機制,做好站內優化,站外優化,用戶體驗,網站的基本架構配置。只要做好這些,你才能通過搜索引擎的排名機制得到高的頁面初始評分值,評分越高,越容易被收錄,有了收錄,才能有好的排名。
百度搜索引擎的基本工作原理就講到這里了,希望本文能為想要在海量的索引庫中取得優先排名的SEO從業者,提供一些啟發和幫助。隨著搜索引擎的發展和進化,規則算法變得越來越復雜了。不過搜索引擎的評分機制與評分項其核心并沒有改變??偟膩碚f,討好搜索引擎與提升用戶體驗是SEO中不變的并駕齊驅的課題。