加勒比HEZYO黑人专区-久久精品国产99国产精品亚洲-精品国产18久久久久久-久久人妻少妇嫩草AV

歡迎光臨 織晶網絡官網!

  • 新聞動態(tài)
  • 020-39182790
網站優(yōu)化您現在的位置:首頁 > 新聞動態(tài) > 網站優(yōu)化

搜索引擎如何處理收集到的網頁數據

作者:織晶客服部   發(fā)布于:2015/6/6 14:42:17  點擊量:  來源:來源:陳晨博客

  搜索引擎原理中,搜索引擎工作流程從大的方面有三點:數據采集、數據預處理、查詢服務,這里和大家分享一下數據預處理,提親說明的是,其中涉及一些專業(yè)的詞匯,在我博客是加了錨文本的,這里沒有,看不懂的可以去看原文。


 


  在我們所述的“數據預處理”就是主要包含四個方面:關鍵詞提取,“鏡像網頁”以及“轉載網頁”的消除,鏈接分析和網頁重要程度的計算。


  關鍵詞提取:

  1)在每一章網頁,包含了大量的和主題內容無關的內容,像版權說明等等,關鍵詞提取的任務,就是要提取出網頁源文件的內容部分所含的關鍵詞。提取的方法:一般類似與切詞,將內容切成多個詞組成的數組,再取出“在”“的”等無意義的詞組,確定最終的關鍵詞。(博主聯想:關鍵詞密度,關鍵詞加粗,定向錨文本就是更具這一原因出現,方便搜索引擎更加簡單的判斷關鍵詞)

  在后面的章節(jié)也會提到的DocView模型中會有更加詳細的講解,在關鍵詞提取之前還有網頁凈化等多個步驟,出于書籍的編輯順序考慮,在這里不詳解,感興趣的可以點擊鏈接跳轉查看:DocView模型,網頁凈化;

  重復或轉載網頁的消除:

  1)天網的2003統計發(fā)現:網頁的平均重復率為4,到目前的2015年,這個數字肯定已經破10。對于網名來說,擁有了更多訪問有用信息的機會,對搜索引擎來說,浪費了大量的搜集網頁的時間,以及網絡寬帶資源。具體實現方法,以后再講。

  鏈接分析:

  1)鏈接分析中有提到兩個概念,詞頻(TF):該關鍵詞在關鍵詞提取之后的關鍵詞集合中的出現頻率;

  2)文件頻率(DF):該關鍵詞在所有文件中的出現頻率,在所有文件中,該關鍵詞在多少文件中出現;

  3)搜索引擎可以通過HTML文本標簽,來確定關鍵詞的重要性(博主聯想:

  標簽的使用就是通過這個得來);指向其他文件的鏈接,來判斷(博主聯想:定向錨文本的使用)

  網頁重要程度的計算:

  1)搜索引擎需要將用戶索引的結果,以列表的形式,展示給客戶,并且在展示中滿足用戶的搜索需求,因此“網頁重要程度”的概念出現了。

  2)判定重要性的方法:人們通過參考文獻重要性的評估方式,其核心就是–“被引用的最多的就是最重要的”。這種方式,恰好在HTML中超文本鏈接完美體現,谷歌的PR值(引用該頁面的頁面概述和引用該頁面的頁面重要程度)就是完美展現(博主聯想:發(fā)外鏈就是該算法的完美體現)。(PageRank算法)

  3)和第二點出現的不同的地方在于,某些頁面是被大量的指向其他頁面,某些頁面被其他頁面大量引用,形成對偶的關系,于是HITS算法出現。(HITS算法)

 

  部分名詞介紹:

  “倒排文字:利用文檔(已經采集到的網頁)中所包含的關鍵詞作為索引,文檔則作為索引的著陸頁(目標文檔),常見的,就像紙質書籍中,索引就是文章關鍵詞,書籍的具體內容或者說頁面就是索引目標頁。

  鏡像網頁:網頁內容一模一樣的,未做任何的修改

  轉載網頁:主要內容基本相同,但是多了少量的編輯信息

  HITS算法:簡單介紹,在HITS算法中,存在兩種頁面Authority(權威)頁面和Hub(目錄)頁面,對于Authority頁面A,指向A頁面的Hub頁面H頁面越多,那么A頁面的質量越高,同樣的Hub頁面H指向的Authority頁面A的數量越多,質量越高,則H頁面的質量也就越高。

  陳晨在最后總結一下,在搜索引擎原理這一本書,在介紹數據預處理這一塊,包含的四個方面,在陳晨來看,鏈接分析就是用來判斷網頁重要程度的,所以可以劃分為一類,合起來就是三個方面,一句話來說:重復或轉載頁面首先消除,然后提取關鍵詞,加以DF,TF,鏈接,和算法來判斷出網頁重要程度。



上一篇:了解搜索引擎算法流程 促進優(yōu)化事半功倍

下一篇:我來告訴你:百度索引量下降怎么辦