28號百度官方發布了《搜索引擎索引系統概述》,對搜索引擎如何抓取頁面、如何索引、如何排序,給了一個大致的闡述。那么對于網站管理者,如何利用這些規則,使網站上優秀的內容,更好的展現給用戶呢?在q豬看來,需要解決以下幾個問題:
第一個問題、如何充分抓取網站數據
分析:從網站的結構層面來解釋這個問題,要使百度充分收錄網站頁面,就需要盡可能的讓搜索引擎蜘蛛最大化的爬行網站,這就需要一個簡單明了、層次分明的網站結構。對于什么是合理的網站結構,百度的很多文件都有提及,就是網狀扁平樹形結構。
1、網狀保證每個頁面都至少有一個文本鏈接指向,可以使網站盡可能全面的被抓取收錄,內鏈建設同樣對排序能夠產生積極作用。
2、扁平保證從首頁到內頁的層次盡量少,既對抓取友好又可以很好的傳遞權重。
3、典型的樹形結構是:首頁-頻道頁-內容頁
為了加強搜索引擎對每個頁面在整個網站中的位置感,我們增加了導航,包括頂部、面包屑、底部導航等,需要說明的是,導航的最主要目的只是為了確定頁面在網站中的位置,導航才是這些鏈接最主要的屬性,所以盡量做到自然,不要堆積關鍵詞。
和導航類似的一個功能就是url的規范化,一個簡潔美觀的url,不僅可以使用戶和搜索引擎很自然的明白頁面的主要內容,并可以兼具網站位置導航功能。同樣,q豬需要強調的是,url盡量的簡短,在中文搜索優化中,url是否包含關鍵詞對頁面的排名作用不大,類如q豬的這篇文章:百度關于搜索原理的闡述,url1是/seo/baiduguanyusousyuanlidechanshu.html,url2是/seo/123.html,q豬的選擇是url2。
在搜索引擎抓取頁面時,有兩個問題是需要特別注意的:就是內容不要重復,頁面觀點不要重復,前者為了確定頁面內容的唯一性,保護內容的原創性,增加搜索引擎對網站的評分,后者是為了避免不必要的內部競爭。
第二個問題、搜索引擎如何索引
分析:用戶在搜索框中輸入關鍵詞、句,搜索引擎在輸出結果之前,是需要對網絡上億萬級的頁面進行分析整理后存入數據庫中,并建立索引,在用戶輸入關鍵詞時,再按照重要性,從高到低排序呈現給用戶,也解釋了,為什么搜索引擎可以在用戶輸入關鍵詞后,短短幾毫秒間就可以輸出結果。
那么,搜索引擎是如何分析網站頁面,并建立索引的呢?
目前所有的引擎對頁面內容的分析都是通過不斷的識別、標記,每一個url都帶上不同的標簽,存入數據庫,再根據原創性、頁面權重等因素進行排序。還是以q豬的這篇“百度關于搜索原理的闡述”為例,通過識別可以將這段文字,分成:百度、關于、搜索、原理、的、闡述。具體關于搜索引擎如何分詞,可以看下q豬的另一篇文章:搜索引擎如何理解文件。
需要指出的是,搜索引擎頁面分析的過程實際上是將原始頁面的不同部分進行識別并標記,例如:title、keywords、content、link、anchor、評論、其他非重要區域等等,所以在頁面優化時,需要特別注意標題、關鍵詞布局、主體內容、內外鏈的描述、評論。
第三個問題、搜索引擎如何輸出結果
分析:對內容進行標記并索引以后,在用戶檢索關鍵詞時,搜索引擎就可以按照不同的組合,結合各種排名算法因素,按重要性倒序輸出各種結果。
舉例:
百度-0x123abc
關于-0x13445d
搜索-0x234d
原理-0x145cf
闡述-0x354df
每一個分詞下,都有不同的頁面:
0x123abc-1,3,4,7,8,11。。
0x13445d-2,5,8,9,11
如果要檢索的關鍵詞為:0x123abc+0x13445d,那么8和11將符合結果。
需要指出的是,對于符合要求的結果還要經過層層的過濾,包括過濾掉死鏈、重復數據、色情、垃圾結果以及你懂的。。。將最能滿足用戶需求的結果排序在最前,可能包括的有用信息如:網站的整體評價、網頁質量、內容質量、資源質量、匹配程度、分散度、時效性等等,詳細內容可以看看q豬的哪些因素可以提升網站的排名。
本文由桐鄉seo(http:///)原創發布,尊重作者版權,轉載請注明出處。