中文垂直搜索引擎的中文分词技术
 
  搜索引擎不能直接将文本用于索引的构建及数据的查询,以单词为单位的语素,才能用于查询索引的构建以及对数据的进一步搜索。所以在面向中文搜索的搜索引擎中,必须对文本文档文件进行分词处理,才能被加以利用,同时,搜索引擎的主要性能直接由分词处理的好坏决定。
 
  分词是中文的一个特色,是对文本进行自然语言处理的第一步,分词对文本按照最大向量法进行词切分,分词一般有基于统计、基于词典和基于理解等方法。对于英文文本,单词以空格进行自然分割,方便匹配和处理,而中文有?#27426;?#30340;语言特殊性,句子中、句子间都是以连续的字符串的形式形成最基本的简单句或复杂的复合句,各词汇之间不是用空格隔开,这就是文本需要进行分析处理的主要原因。
中文垂直搜索引擎的中文分词技术
 
  1、分词系统
 
  (1)CDWS(The Mordern Printed Chinese Distin-加shing Word System)分词系统,是国内第一个在分词处理中效?#24335;?#39640;的系统。该系统主要采用了尾字词检错技术。该技术主要使用最大匹配算法,系统自身带有纠错知识库,提高了分词准确率。
 
  (2)清华大学的SEG分词系统,是基于词典开发设计的一种分词方法,算法主要特征为:简单且分词效果相对较好。该系统主要是使用正向、反向以及双向的最大匹配法和全切分算法,用户分析实?#26159;?#20917;,从而选择更为适合的算法。
 
  (3)?#26412;?#22823;学所开发设计的分词系统,主要实现分词和标注的有机结合,同时在系统中自带相应的知识库。系统对词语信息进行分析,并在对词性进行标注的过程中同时对分词结果的准确性进行相关的检验。
 
  (4)中科院开发的ICTCLAS ( Institute of Com-puting Technology, Chinese Lexical Analysis System)系统,主要实现中文分词、词性标注、实体识别、新词识别等功能,并且系统支持用户词典的相关规则以及参照上下文信息等多种规则,将切分中存在的歧义进行?#27426;?#30340;排除,对未登录词进行识别并集成在一起,从而构成一个完整的框架结构。
 
  (5)分词算法主要利用最大匹配算法作为主要构成,算法主要思想?#21069;?#20174;左至右的正向结构进行最大匹配以及从右到左的反向结构进行最大匹配,当该算法的两种分词所得结果不一致时,按最少切分原则,将分词数最少的一种进行取切,若算法中的两种分词切分所得的结果词数一样,则取反向最大匹配将其作为分词的结果[}3]0
 
  2、分词算法
 
  现有的分词算法可分为3类,即基于字典进行相关匹配、基于内容理解和基于数据统计的3种分
 
  词方法。
 
  (1)基于字典匹配的分词方法。该方法是一种基于词典的分词方法,根据指定的相关算法将输人的汉字字符串与机器中所预设的词典中的词条进行比较,若在设置的词典中能对应找到某个字符串,就判定为可识别出该词。由于该方法较为机械,故又称之为机械分词法。
 
  (2)基于理解的分词方法。该方法主要思想是拟人来对句子进行?#27426;?#30340;理解。基本思想是让计算机自动识别词语,在对词语进行分词的同时进行语法、、语义的分析,利用句法和语义信息来对中文的歧义现象进行?#27426;?#30340;处理。该方法需要大量的语言知识和语言信息,由于汉语具备相较复杂性,所以这种分词方法现处于试验阶段。
 
  (3)基于统计的分词方法。这种方法是比较相邻的字词同时出现的频率以及同时出现的次数多,即可判断为可构成一个词。将字与字之间相邻或者共现的状况,对各个字的可能组合频度进行统计,为字词问的相互出现的情况进行计算。统计常用词词典,并日.使用统计的方法来对一些网络出现的新词进行识别。
 
  目前在搜索引擎中应用较多的分词方法主要有以下几种:Lueene中专门处理中文文档的C}KAnalyzer、中科院开发的ICTCLAS分词工具、JE分词器采用正向最大匹配的中文分词算法、1 K-Analyzer以词典分词为基础的正反向全切分以及正反向最大匹配切分两种方法、MIK-Canalyzer使用正反两方向全匹配算法。伴随着面向中文的处理技术的不断进步,整体性能会有所提高,如分词处理的速?#21462;?#20998;词的准确率等都会有所提高,而在空问复杂度方面会有相应的?#26723;汀?#22312;面向中文搜索的搜索引擎中,使用相对应较为适合的分词处理方法,会使搜索引擎的整体搜索效果,如准确率和召回率等?#21152;?#25152;改善,使得面向中文搜索的主题搜索引擎更能满足用户的需求。