一、抓取原理(深度抓取和廣度抓。
Spider的抓取是搜索引擎內容的重要來源,Spider通過抓取一個鏈接不斷的往下抓取,就像是一個蜘蛛網,蜘蛛在網上面不斷的進行爬取從而獲得大量的內容來源。
二、篩選、過濾
蜘蛛將抓取來的頁面會經過不斷的篩選把帶有明顯的欺騙用戶的網頁,死鏈接,空白內容頁面,沒有豐富內容,文不對題的垃圾頁面等進行過濾掉。這些網頁對用戶、站長和百度來說,都是沒有足夠的價值得垃圾頁面,是為了避免為用戶和您的網站帶來不必要的麻煩,以提高用戶體驗。
三、建立索引
百度對抓取回來的內容會逐一進行標記和識別,并將這些標記進行儲存為結構化的數據,比如網頁的tag、title、metadescripiton、網頁外鏈及描述、抓取記錄。同時,也會將網頁中的關鍵詞信息進行識別和儲存,以便與用戶搜索的內容進行匹配。
四、展示排序
用戶輸入的關鍵詞,百度會對其進行一系列復雜的分析,并根據分析的結論在索引庫中尋找與之最為匹配的一系列網頁,按照用戶輸入的關鍵詞所體現的需求強弱和網頁的優劣進行打分,并按照最終的分數進行排列,展現給用戶。
掃一掃 加微信咨詢