搜索引擎分詞算法

2016/10/29 8:45:58 閱讀：1449 發(fā)布者：1449

　　當(dāng)日益劇增的海量信息讓我們眼花繚亂時(shí)，搜索引擎的出現(xiàn)可以讓我們快速找到自己想要的答案。因此多了解搜索引擎的分詞算法，可以讓網(wǎng)站在搜索引擎上獲得更好的展現(xiàn)機(jī)會(huì)。網(wǎng)站建設(shè)小編在講解中文分詞技術(shù)之前，先來(lái)了解下全文檢索技術(shù)。

　　全文檢索技術(shù)

　　全文檢索是指索引程序掃描文章中的每個(gè)詞并建立對(duì)應(yīng)索引，記錄該詞出現(xiàn)的位置和次數(shù)。當(dāng)通過(guò)搜索引擎查詢(xún)時(shí)，檢索程序就在記錄的索引進(jìn)行查找并返回給用戶(hù)。全文檢索又分為基于字的全文索引和基于詞的全文索引?；谧值娜乃饕龝?huì)對(duì)內(nèi)容中的每個(gè)字建立索引并記錄，此方法查全率高但查準(zhǔn)率低，特別是對(duì)于中文，有時(shí)搜索馬克，會(huì)列出馬克思的結(jié)果。基于詞的全文索引是把一個(gè)詞語(yǔ)作為一個(gè)單位進(jìn)行索引記錄并能處理同義詞。搜索引擎有自己的詞庫(kù)，當(dāng)用戶(hù)搜索時(shí)，搜索引擎會(huì)從詞庫(kù)中抽取關(guān)鍵詞作為索引項(xiàng)，這樣可以大大提高檢索的準(zhǔn)確率。

　　中文分詞技術(shù)

　　一直以來(lái)大家都比較熟悉百度，百度有自己的中文分詞技術(shù)。一般采用的包括正向最大匹配，反向最大匹配，最佳匹配法，專(zhuān)家系統(tǒng)方法等。其中最大正向匹配是最常用的分詞解決方案，它采用機(jī)械式算法，通過(guò)建立詞典并進(jìn)行正向最大匹配對(duì)中文進(jìn)行分詞。舉個(gè)簡(jiǎn)單的例子比如搜索“北京大學(xué)在哪里”則返回結(jié)果很多都是包含北京大學(xué)，北大等詞語(yǔ)的網(wǎng)頁(yè)，搜索引擎就是采用正向最大匹配去判斷，把北京大學(xué)當(dāng)做一個(gè)詞語(yǔ)來(lái)索引記錄并返回。當(dāng)然，正向最大匹配也有不完整性，比如長(zhǎng)度過(guò)長(zhǎng)的詞語(yǔ)，搜索引擎有時(shí)無(wú)法準(zhǔn)確的分詞或者對(duì)前后都相互關(guān)聯(lián)的詞無(wú)法準(zhǔn)確分詞。例如“結(jié)合成分子時(shí)”會(huì)被返回結(jié)合、成分、子時(shí)而有時(shí)我們想要的關(guān)鍵詞是“分子”。

　　很多時(shí)候百度都會(huì)根據(jù)自己詞庫(kù)中詞語(yǔ)的權(quán)重進(jìn)行拆分，權(quán)重的計(jì)算基于生活各個(gè)方面，比較復(fù)雜，搜索引擎要做的就是返回用戶(hù)最想要的結(jié)果，有時(shí)站長(zhǎng)們做網(wǎng)站要站在用戶(hù)的角度去考慮問(wèn)題，其實(shí)這也是站在搜索引擎的角度考慮問(wèn)題，不論在確定目標(biāo)關(guān)鍵詞或者是長(zhǎng)尾關(guān)鍵詞時(shí)，都可以根據(jù)中文分詞的原理來(lái)選擇，這樣可以最大化的減少無(wú)用功。

　　分詞原理不斷在變化，不斷在更新，我們應(yīng)該繼續(xù)學(xué)習(xí)，只有掌握了本質(zhì)才能抓住實(shí)質(zhì)。

相關(guān)閱讀:《關(guān)于搜索引擎分詞的一些理解》

上一篇如何建立搜索引擎的信任度

下一篇網(wǎng)站排名不穩(wěn)定的因素出現(xiàn)在哪里

【微信掃一掃】

国产色在线视频-国产色综合一区二区三区-国产身材极品喷水在线播放-国产深夜福利视频观看-国产深夜福利视频在线-国产深夜福利视频在线播放

搜索引擎分詞算法

文章分類(lèi)

相關(guān)新聞

熱門(mén)標(biāo)簽

国产色在线视频-国产色综合一区二区三区-国产身材极品喷水 在线播放-国产深夜福利视频观看-国产深夜福利视频在线-国产深夜福利视频在线播放

搜索引擎分詞算法

文章分類(lèi)

相關(guān)新聞

熱門(mén)標(biāo)簽

国产色在线视频-国产色综合一区二区三区-国产身材极品喷水在线播放-国产深夜福利视频观看-国产深夜福利视频在线-国产深夜福利视频在线播放