在搜索引擎原理中,搜索引擎工作流程從大的方面有三點:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、查詢服務(wù),這里和大家分享一下數(shù)據(jù)預(yù)處理,提前說明的是,其中涉及一些專業(yè)的詞匯,看不懂的可以去百度一下。
在我們所述的“數(shù)據(jù)預(yù)處理”就是主要包含四個方面:關(guān)鍵詞提取,“鏡像網(wǎng)頁”以及“轉(zhuǎn)載網(wǎng)頁”的消除,鏈接分析和網(wǎng)頁重要程度的計算。
關(guān)鍵詞提取:
1)在每一章網(wǎng)頁,包含了大量的和主題內(nèi)容無關(guān)的內(nèi)容,像版權(quán)說明等等,關(guān)鍵詞提取的任務(wù),就是要提取出網(wǎng)頁源文件的內(nèi)容部分所含的關(guān)鍵詞。提取的方法:一般類似與切詞,將內(nèi)容切成多個詞組成的數(shù)組,再取出“在”“的”等無意義的詞組,確定最終的關(guān)鍵詞。(博主聯(lián)想:關(guān)鍵詞密度,關(guān)鍵詞加粗,定向錨文本就是更具這一原因出現(xiàn),方便搜索引擎更加簡單的判斷關(guān)鍵詞)
在后面的章節(jié)也會提到的DocView模型中會有更加詳細的講解,在關(guān)鍵詞提取之前還有網(wǎng)頁凈化等多個步驟,出于書籍的編輯順序考慮,在這里不詳解,感興趣的可以點擊鏈接跳轉(zhuǎn)查看:DocView模型,網(wǎng)頁凈化;
鏈接分析:
1)鏈接分析中有提到兩個概念,詞頻(TF):該關(guān)鍵詞在關(guān)鍵詞提取之后的關(guān)鍵詞集合中的出現(xiàn)頻率;
2)文件頻率(DF):該關(guān)鍵詞在所有文件中的出現(xiàn)頻率,在所有文件中,該關(guān)鍵詞在多少文件中出現(xiàn);
3)搜索引擎可以通過HTML文本標簽,來確定關(guān)鍵詞的重要性(博主聯(lián)想:<h1>標簽的使用就是通過這個得來);指向其他文件的鏈接,來判斷(博主聯(lián)想:定向錨文本的使用)
網(wǎng)頁重要程度的計算:
1)搜索引擎需要將用戶索引的結(jié)果,以列表的形式,展示給客戶,并且在展示中滿足用戶的搜索需求,因此“網(wǎng)頁重要程度”的概念出現(xiàn)了。
2)判定重要性的方法:人們通過參考文獻重要性的評估方式,其核心就是–“被引用的最多的就是最重要的”。這種方式,恰好在HTML中超文本鏈接完美體現(xiàn),谷歌的PR值(引用該頁面的頁面概述和引用該頁面的頁面重要程度)就是完美展現(xiàn)(博主聯(lián)想:發(fā)外鏈就是該算法的完美體現(xiàn))。(PageRank算法)
3)和第二點出現(xiàn)的不同的地方在于,某些頁面是被大量的指向其他頁面,某些頁面被其他頁面大量引用,形成對偶的關(guān)系,于是HITS算法出現(xiàn)。(HITS算法)
部分名詞介紹:
“倒排文字:利用文檔(已經(jīng)采集到的網(wǎng)頁)中所包含的關(guān)鍵詞作為索引,文檔則作為索引的著陸頁(目標文檔),常見的,就像紙質(zhì)書籍中,索引就是文章關(guān)鍵詞,書籍的具體內(nèi)容或者說頁面就是索引目標頁。
鏡像網(wǎng)頁:網(wǎng)頁內(nèi)容一模一樣的,未做任何的修改
轉(zhuǎn)載網(wǎng)頁:主要內(nèi)容基本相同,但是多了少量的編輯信息
HITS算法:簡單介紹,在HITS算法中,存在兩種頁面Authority(權(quán)威)頁面和Hub(目錄)頁面,對于Authority頁面A,指向A頁面的Hub頁面H頁面越多,那么A頁面的質(zhì)量越高,同樣的Hub頁面H指向的Authority頁面A的數(shù)量越多,質(zhì)量越高,則H頁面的質(zhì)量也就越高。
優(yōu)覺科技在最后總結(jié)一下,在搜索引擎原理這一本書,在介紹數(shù)據(jù)預(yù)處理這一塊,包含的四個方面,在陳晨來看,鏈接分析就是用來判斷網(wǎng)頁重要程度的,所以可以劃分為一類,合起來就是三個方面,一句話來說:重復(fù)或轉(zhuǎn)載頁面首先消除,然后提取關(guān)鍵詞,加以DF,TF,鏈接,和算法來判斷出網(wǎng)頁重要程度。
- 地址:上海市奉賢區(qū)川南奉公路9249號信投大廈5樓
- 電話:400-8699-864
- 手機:18321047223
- 郵件:404011662@qq.com
- ICP: 滬ICP備18007921號-1 公安備案號:33010302001608