中文垂直搜索引擎信息抽取技术
 
  面对爬虫下载得到的网页,由于构建索引数据库所需对象往往是文本文件,而爬虫抓取下来的网页信息一般为html,pdf文档或Word文档等,这类数据是不能直接用于构建索引库的。对网页的文本内容进行较为精准的抽取对搜索引擎的查准率方面有较为明显的影响,同时从页面中提取出来的链接对网络爬虫是否能够准?#36820;?#25235;取其他网页也有着较为明显的作用。
中文垂直搜索引擎信息抽取技术
 
  与传统的信息媒介相比,Web主要有以下特点:
 
  (1)信息容量大。Internet上我国的网站总量在2015年就已超过420万个,中国目前互联网用户人数超过3.84亿,同时网页数量还在以指数形式每?#31449;?#22686;。
 
  (2)Web的动态性。随着Web技术每天都在不?#31995;?#26356;新,Web的内容与结构每天都在变化。
 
  (3)Web的异构性。网络中所包含的文件的种?#21908;?#24335;各样,其中包含文本类型文件、图像类型文件、音频文件、图片以及活动脚本?#21462;?/span>
 
  (4)页面内容的重复性。通过对网络数据的统计,浩瀚的网络数据中大约30%的页面是重复的。
 
  (5)链接的特性。各个页面间都?#34892;?#22810;指向其他页面的链接,页面与页面之间往往是通过链接相互联系的。
 
  信息抽取的处理对象可分为三种:无结构文本、半结构文本、结构化文本}z}。针对不同的信息源,信息抽取的方法有着很大的差别,但抽取系统的原理和方法基本类似,都要对文本进行?#27426;?#30340;预处理。
 
  无结构化的文本又称为自由性文本,是现当今对于信息的抽取中所处理的主要对象,也是信息抽取中所需处理的对象中难度最大的一个。目前,无结构化文本的信息抽取已经细化到如下几个主要方面:命名实体识别与跟踪、实体关系识别与跟踪、时间的识别与抽取?#21462;?#23454;体识别已经达到很高的效率,可以基本实现商业化应用。
 
  半结构化文本是一种介于无结构化文本与结构化文本之间的一种数据形式,如:(1)Web网页,Web上目前出现了大量的半结构化的文本信息,即各种不同类型的网页,这些Web网页?#31995;?#20449;息具有?#27426;?#30340;规则,但各自的规则又不相同,各有其页面结构特征;(2)文本格式的法?#21830;?#32422;、专利文献等,虽然表面看上去是无结构化的文本,但其实是存在固定内容结构模式的,因此这类文本也属于半结构化文本。对半结构化文本的信息处理,包括对文本的语法分析、语法分析和实体识别,通过对每个网页分析构建规则。
 
  结构化的文本是指已经通过特定的规则或符?#29228;?#34920;达的文本结构。结构化文本本身已经具有结构化的特征,对该类文本的抽取较为方便目_具有相关规则,一般不再进行相关抽取的技术研究。对结构化文本的抽取,既有对数据库进行抽取,也有对网络中的知识点进行再组织。
 
  1、HTML文?#30340;?#23481;的提取
 
  HTML是一种超文本标记语言,是利用不同网页中的标签来对文本信息或文档的结构等进行标识。通过这种文本标记语言来编写的文档被称为html文档(或html网页文档),这?#30452;?#35760;语言是独立于各种操作系统的,通常以.html和.htm为后?#22909;?#32467;尾。
 
  目前,网络上流行利用htmlparser作为解析网页的工具,可以实现对网页文本的处理和抽取。
 
  这个网页解析丁;具是利用节点类来对HTML文?#21040;?#34892;?#27426;?#30340;表示oAbstratNode类是所有节点类的父亲节点,而RemarkNode,TagNode和TextNode类是这个类的派生类,通过这些派生类,能够很方便的表示整个网页。AbstratNode还定义一系列的方法,这些方法用来操作整个网页。
 
  目前互联网的网页都是由标签与文本间相互嵌套构成的,标签有<head></head>,<body></body>?#21462;TMLParser是一种能对网页内容进行?#27426;?#35299;析的工具,具体详细的解析过程为:根据网页中的文本3w}内容嵌套在?#27426;?#30340;标签中这一特性,用节点来表示每一层的标签,用该抽取一l具对节点内的内.容进行抽取,放到容器中,同时把嵌套在外面的标签取出。如上述过程循?#26041;?#26512;文本的内容,直到解析完所有的网页为止。经过处理后的网页内容,文本都可以用于分词处理后构建索引。
 
  2、PDF文档的分析
 
  PDF是由Adobe公?#31350;?#21457;的一种文本型文档。这种文档的相关运行与目前的各类系统都无关,均可在unix,linux以及windows系统中运行)这种文档主要是面对?#20013;汀?#26684;式等进行封装并存储为一个独立的文件中。对其中的文本信息进行抽取,即需要相应工具来解析。
 
  PDFBOX是一种能对PDF文?#21040;?#34892;操作的类库,它能很便捷的集成在开源的搜索引擎架构Lucene中。在对文件的操作处理中,PDFBOX有很多的优点:(1)可以很方便地地创建文档;(2)可以将文档中的文本内容提取出来;f3)可以将PDF文档转化成一张图片?#21462;?/span>
 
  同时,类库中还提供了许多方法。开发人员可以使用这些方法对对象进行操作,提取文本,从而构建索引。