2014年1月6日 星期一

[中文分詞]百度算法中怎麼進行中文切詞分詞

導讀:百度作為中文搜索引擎的先驅,它的核心地位可以說在短時期是沒有任何搜索引擎可以超越的,百度的卓越成就在於它對博大精深的中國文化的領悟和對中文分詞的的超強功底百度受歡迎的主要原因除了用戶習慣的原因,在較大程度上得益於百度算法的精准率,搜索結果值更貼近用戶的想獲得的資訊。用一句廣告詞“正是我想要的”來形容百度最恰當不過了。

正因為百度對中國搜索引擎市場的統治地位,企業想在網上賺取大量的鈔票,就不得不依靠百度。所以做搜索引擎的優化實際上就是百度優化。但百度強大的反優化能力和人工干預機制,使得眾多的優化者以失敗以失敗告終。對於大多數優化者來說,百度成了洪水猛獸。果真如此嗎?網絡行銷大師鄧友成認為不盡然。只要是搜索引擎就離不開算法,任何算法都是有規律可循的。下面我們深入淺出的探討一下百度的​​算法吧。
一. 搜索信息響應
當用戶向百度提出搜索請求後百度會迅速根據用戶的請求提供比較精準的結果值。
1. 比喻當用戶提交“搜索引擎優化技術”這個查詢文字串.百度會將文字串分割成若干子文字串,用空格,標點符等做細分處理。那麼這個文字串就可以分成“搜索引擎,優化,技術”。
2. 如果用戶提交的請求有重複的文字符,例如”優化技術優化”,百度會將重複的文字符看成一個。而字符的出現順序就忽略。
3. 當用戶提交請求中出現英文字符,百度一般會將英文字符當作一個整體來看,並和中文詞分割開來,如果中文出現數字也是這樣處理的。
百度通過切割、重組、歸併、減負等手段對用戶請求進行精準響應,使搜索結果符合用戶的想法,以節省用戶的查詢時間,提高查詢效率。
二. 中文核心分詞
中文分詞是百度算法的核心要素。按中文語法習慣,三個字(含三個字)以下的文字符是獨立精準的詞彙,沒有重組的必要,所以百度對三個字(含三個字)以下的文字符不考慮細分。這也是百度核心算法的第一層,也是響應數量最多的部分。一般這些文字符更新的時間比較慢一些,一周或兩週的時間。屬於大更新的範疇。
四個字符的百度就會毫不客氣的大卸十八塊比如,網絡工具這個文字串,當用戶發出搜索請求後,會發現在搜索結果裡面出現了紅色的標記,已經把這個文字符分成了“網絡,工具”。當然如果是四個字以上的文字串就更不用說了。會分成更多的分詞。
三、字詞匹配
大概了解了百度的分詞原理後,我們要了解的一個重要方面就是字詞的匹配問題。如果不知道字詞的匹配,做優化就是空談了。
最大匹配法
最大匹配法亦稱MM法。假設自動分詞詞典(或詞庫)中的最長詞條是y個字,則取被處理材料當前字符串序列中的前y個字作為匹配字段,查找詞典,若詞典中存在這樣的一個y字詞,則匹配成功,匹配字段被作為一個詞切分出來;如果在詞典中找不到這樣一個y字詞,則匹配失敗,匹配字段去掉最後一個字,剩下的字段重新進行匹配,如此進行下去,直到匹配成功,也就是完成一輪匹配,切分出一個詞為止。
正向最大匹配算法
正向最大匹配法(由左到右的方向)。首先粗分,按照句子把文本切成一個一個句子。然後把每個句子切成單字。字典按照樹形結構存儲,比如這句話“春天還會遠嗎”首先查找“春”字開頭的詞,然後按照字典樹形結構往下走一個節點,查找“春”後面一個字是“天”的詞,然後又下沉一個節點,找“還”下面是“會”的詞,找不到了,查找就結束。
反向最大匹配算法
逆向最大匹配法(由右到左的方向);就是朝相反的方向發掘可以匹配的文字,比如網上商城這個文字串,那麼會向左延伸在王上的前面會出現的結果是區域性的文字,不如上海或者北京等,在商城的前面會出現更精準的定義文字符,不如愛家,女人等專屬性強的文字符。
雙向最大匹配算法
正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。就是向左右縱深挖掘比較匹配的結果值。
熟悉了百度分詞的方法後,我們就要在優化的過程充分的考慮相關聯的因素,合理的對你所要向用戶推薦的文字串做合理的規範和謀劃。軟優化歡迎優化者們和我們一道加強交流共同進步。

轉載自:http://blog.sina.com.cn/s/blog_49f914ab01013b4s.html

沒有留言:

張貼留言

Google Analytics初學者入門簡介