中文垂直搜索引擎的中文分詞技術
 
  搜索引擎不能直接將文本用于索引的構建及數據的查詢,以單詞為單位的語素,才能用于查詢索引的構建以及對數據的進一步搜索。所以在面向中文搜索的搜索引擎中,必須對文本文檔文件進行分詞處理,才能被加以利用,同時,搜索引擎的主要性能直接由分詞處理的好壞決定。
 
  分詞是中文的一個特色,是對文本進行自然語言處理的第一步,分詞對文本按照最大向量法進行詞切分,分詞一般有基于統計、基于詞典和基于理解等方法。對于英文文本,單詞以空格進行自然分割,方便匹配和處理,而中文有一定的語言特殊性,句子中、句子間都是以連續的字符串的形式形成最基本的簡單句或復雜的復合句,各詞匯之間不是用空格隔開,這就是文本需要進行分析處理的主要原因。
中文垂直搜索引擎的中文分詞技術
 
  1、分詞系統
 
  (1)CDWS(The Mordern Printed Chinese Distin-加shing Word System)分詞系統,是國內第一個在分詞處理中效率較高的系統。該系統主要采用了尾字詞檢錯技術。該技術主要使用最大匹配算法,系統自身帶有糾錯知識庫,提高了分詞準確率。
 
  (2)清華大學的SEG分詞系統,是基于詞典開發設計的一種分詞方法,算法主要特征為:簡單且分詞效果相對較好。該系統主要是使用正向、反向以及雙向的最大匹配法和全切分算法,用戶分析實際情況,從而選擇更為適合的算法。
 
  (3)北京大學所開發設計的分詞系統,主要實現分詞和標注的有機結合,同時在系統中自帶相應的知識庫。系統對詞語信息進行分析,并在對詞性進行標注的過程中同時對分詞結果的準確性進行相關的檢驗。
 
  (4)中科院開發的ICTCLAS ( Institute of Com-puting Technology, Chinese Lexical Analysis System)系統,主要實現中文分詞、詞性標注、實體識別、新詞識別等功能,并且系統支持用戶詞典的相關規則以及參照上下文信息等多種規則,將切分中存在的歧義進行一定的排除,對未登錄詞進行識別并集成在一起,從而構成一個完整的框架結構。
 
  (5)分詞算法主要利用最大匹配算法作為主要構成,算法主要思想是按從左至右的正向結構進行最大匹配以及從右到左的反向結構進行最大匹配,當該算法的兩種分詞所得結果不一致時,按最少切分原則,將分詞數最少的一種進行取切,若算法中的兩種分詞切分所得的結果詞數一樣,則取反向最大匹配將其作為分詞的結果[}3]0
 
  2、分詞算法
 
  現有的分詞算法可分為3類,即基于字典進行相關匹配、基于內容理解和基于數據統計的3種分
 
  詞方法。
 
  (1)基于字典匹配的分詞方法。該方法是一種基于詞典的分詞方法,根據指定的相關算法將輸人的漢字字符串與機器中所預設的詞典中的詞條進行比較,若在設置的詞典中能對應找到某個字符串,就判定為可識別出該詞。由于該方法較為機械,故又稱之為機械分詞法。
 
  (2)基于理解的分詞方法。該方法主要思想是擬人來對句子進行一定的理解。基本思想是讓計算機自動識別詞語,在對詞語進行分詞的同時進行語法、、語義的分析,利用句法和語義信息來對中文的歧義現象進行一定的處理。該方法需要大量的語言知識和語言信息,由于漢語具備相較復雜性,所以這種分詞方法現處于試驗階段。
 
  (3)基于統計的分詞方法。這種方法是比較相鄰的字詞同時出現的頻率以及同時出現的次數多,即可判斷為可構成一個詞。將字與字之間相鄰或者共現的狀況,對各個字的可能組合頻度進行統計,為字詞問的相互出現的情況進行計算。統計常用詞詞典,并日.使用統計的方法來對一些網絡出現的新詞進行識別。
 
  目前在搜索引擎中應用較多的分詞方法主要有以下幾種:Lueene中專門處理中文文檔的C}KAnalyzer、中科院開發的ICTCLAS分詞工具、JE分詞器采用正向最大匹配的中文分詞算法、1 K-Analyzer以詞典分詞為基礎的正反向全切分以及正反向最大匹配切分兩種方法、MIK-Canalyzer使用正反兩方向全匹配算法。伴隨著面向中文的處理技術的不斷進步,整體性能會有所提高,如分詞處理的速度、分詞的準確率等都會有所提高,而在空問復雜度方面會有相應的降低。在面向中文搜索的搜索引擎中,使用相對應較為適合的分詞處理方法,會使搜索引擎的整體搜索效果,如準確率和召回率等都有所改善,使得面向中文搜索的主題搜索引擎更能滿足用戶的需求。