中文垂直搜索引擎信息抽取技術
 
  面對爬蟲下載得到的網頁,由于構建索引數據庫所需對象往往是文本文件,而爬蟲抓取下來的網頁信息一般為html,pdf文檔或Word文檔等,這類數據是不能直接用于構建索引庫的。對網頁的文本內容進行較為精準的抽取對搜索引擎的查準率方面有較為明顯的影響,同時從頁面中提取出來的鏈接對網絡爬蟲是否能夠準確的抓取其他網頁也有著較為明顯的作用。
中文垂直搜索引擎信息抽取技術
 
  與傳統的信息媒介相比,Web主要有以下特點:
 
  (1)信息容量大。Internet上我國的網站總量在2015年就已超過420萬個,中國目前互聯網用戶人數超過3.84億,同時網頁數量還在以指數形式每日劇增。
 
  (2)Web的動態性。隨著Web技術每天都在不斷的更新,Web的內容與結構每天都在變化。
 
  (3)Web的異構性。網絡中所包含的文件的種類各式各樣,其中包含文本類型文件、圖像類型文件、音頻文件、圖片以及活動腳本等。
 
  (4)頁面內容的重復性。通過對網絡數據的統計,浩瀚的網絡數據中大約30%的頁面是重復的。
 
  (5)鏈接的特性。各個頁面間都有許多指向其他頁面的鏈接,頁面與頁面之間往往是通過鏈接相互聯系的。
 
  信息抽取的處理對象可分為三種:無結構文本、半結構文本、結構化文本}z}。針對不同的信息源,信息抽取的方法有著很大的差別,但抽取系統的原理和方法基本類似,都要對文本進行一定的預處理。
 
  無結構化的文本又稱為自由性文本,是現當今對于信息的抽取中所處理的主要對象,也是信息抽取中所需處理的對象中難度最大的一個。目前,無結構化文本的信息抽取已經細化到如下幾個主要方面:命名實體識別與跟蹤、實體關系識別與跟蹤、時間的識別與抽取等。實體識別已經達到很高的效率,可以基本實現商業化應用。
 
  半結構化文本是一種介于無結構化文本與結構化文本之間的一種數據形式,如:(1)Web網頁,Web上目前出現了大量的半結構化的文本信息,即各種不同類型的網頁,這些Web網頁上的信息具有一定的規則,但各自的規則又不相同,各有其頁面結構特征;(2)文本格式的法律條約、專利文獻等,雖然表面看上去是無結構化的文本,但其實是存在固定內容結構模式的,因此這類文本也屬于半結構化文本。對半結構化文本的信息處理,包括對文本的語法分析、語法分析和實體識別,通過對每個網頁分析構建規則。
 
  結構化的文本是指已經通過特定的規則或符號來表達的文本結構。結構化文本本身已經具有結構化的特征,對該類文本的抽取較為方便目_具有相關規則,一般不再進行相關抽取的技術研究。對結構化文本的抽取,既有對數據庫進行抽取,也有對網絡中的知識點進行再組織。
 
  1、HTML文檔內容的提取
 
  HTML是一種超文本標記語言,是利用不同網頁中的標簽來對文本信息或文檔的結構等進行標識。通過這種文本標記語言來編寫的文檔被稱為html文檔(或html網頁文檔),這種標記語言是獨立于各種操作系統的,通常以.html和.htm為后綴名結尾。
 
  目前,網絡上流行利用htmlparser作為解析網頁的工具,可以實現對網頁文本的處理和抽取。
 
  這個網頁解析丁;具是利用節點類來對HTML文檔進行一定的表示oAbstratNode類是所有節點類的父親節點,而RemarkNode,TagNode和TextNode類是這個類的派生類,通過這些派生類,能夠很方便的表示整個網頁。AbstratNode還定義一系列的方法,這些方法用來操作整個網頁。
 
  目前互聯網的網頁都是由標簽與文本間相互嵌套構成的,標簽有<head></head>,<body></body>等。HTMLParser是一種能對網頁內容進行一定解析的工具,具體詳細的解析過程為:根據網頁中的文本3w}內容嵌套在一定的標簽中這一特性,用節點來表示每一層的標簽,用該抽取一l具對節點內的內.容進行抽取,放到容器中,同時把嵌套在外面的標簽取出。如上述過程循環解析文本的內容,直到解析完所有的網頁為止。經過處理后的網頁內容,文本都可以用于分詞處理后構建索引。
 
  2、PDF文檔的分析
 
  PDF是由Adobe公司開發的一種文本型文檔。這種文檔的相關運行與目前的各類系統都無關,均可在unix,linux以及windows系統中運行)這種文檔主要是面對字型、格式等進行封裝并存儲為一個獨立的文件中。對其中的文本信息進行抽取,即需要相應工具來解析。
 
  PDFBOX是一種能對PDF文檔進行操作的類庫,它能很便捷的集成在開源的搜索引擎架構Lucene中。在對文件的操作處理中,PDFBOX有很多的優點:(1)可以很方便地地創建文檔;(2)可以將文檔中的文本內容提取出來;f3)可以將PDF文檔轉化成一張圖片等。
 
  同時,類庫中還提供了許多方法。開發人員可以使用這些方法對對象進行操作,提取文本,從而構建索引。