两个人做人爱视频免费,97久久精品人人搡人妻人人玩,欧洲精品码一区二区三区,999zyz玖玖资源站永久

我要投稿 投訴建議

可擴展的網頁關鍵信息抽取探究論文

時間:2022-08-06 04:10:27 畢業論文范文 我要投稿
  • 相關推薦

可擴展的網頁關鍵信息抽取探究論文

  1引言

可擴展的網頁關鍵信息抽取探究論文

  網頁的關鍵信息是網頁的最基本的信息,它體現了該網頁和其他網頁的差別。常見的關鍵信息有正文、作者、來源、發布時間等。在網絡輿情監控、網絡情報分析、搜索引擎等重大網絡應用中,這些關鍵信息都是后期分析挖掘必不可少的基礎數據。需要利用網絡信息抽取技術從網頁中抽取出這些關鍵信息。從某種角度上講,關鍵信息的抽取質量直接決定了網絡應用服務的效果。因此,網頁的關鍵信息抽取研究具有重大的應用價值。隨著網頁規模呈指數級增長,在網絡應用中,模板無關的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優勢成為信息抽取環節的主流算法。該算法通常針對特定需求,利用一些經驗規則處理特定領域或特定格式的網頁。

  因為抽取過程無需人工干預,所以此類算法越來越多地應用于實際網絡環境中。基于模板的信息抽取算法充分利用了動態網頁的規律:網頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數據。因此,該算法在對動態網頁進行抽取時能夠取得較高的精度。但是,這兩類抽取算法也存在著其固有的缺陷。模板無關的全自動抽取算法通;谶^強的假設。在處理多樣性日益顯著的網頁時,常常因為某些網頁不符合假設,而導致出現抽取精度不能滿足需求的情況;并且由于使用過多規則,導致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時,需先針對某類網頁學習出模板,后人工標注。面對日益增多的數據源,會導致網絡應用的運維代價過大;同時日益復雜的網頁使得模板的準確性下降,從而導致抽取精度下降。針對上述模板無關的全自動信息抽取算法和基于模板的信息抽取算法的缺陷,本文進行了深入研究。本文的貢獻主要有以下兩點。首先,提出了一種可擴展的網頁關鍵信息抽取框架。該框架通過輸入訓練網頁或其他算法的抽取結果,生成關鍵信息模板集。再通過模板的正交過濾算法,生成候選的關鍵信息模板。最后通過模板的特征過濾算法,生成最終的關鍵信息模板。利用該模板可快速、準確地從同類型網頁中抽取關鍵信息。該框架很好地融合了模板無關的全自動信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發揮各自的優點,并在缺點方面互相彌補。實驗結果表明,該框架能夠在抽取精度、抽取效率方面有本質上的提高。此外,該框架具有很好的可擴展性,框架中的一些關鍵環節可根據需求進行替換。其次,本文提出了模板的正交過濾算法,該算法將訓練網頁或其他算法的抽取結果分成若干份,生成若干個模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質上提高生成的模板的準確性,最后的實驗結果也充分驗證了這一結論。本文的組織結構如下:第1節介紹了本文提出的可擴展的網頁關鍵信息抽取框架的背景及意義,并簡單介紹該框架及核心算法。第2節介紹主要的相關工作。第3節詳細介紹可擴展的網頁關鍵信息抽取框架,重點介紹框架中的關鍵技術點。第4節介紹實驗與結果分析。第5節對本文工作進行總結,并介紹未來工作。

  2相關工作網頁信息抽取

  是一種針對網絡數據源和網頁進行深度處理和加工的過程。由于網頁的復雜性和多樣性,使得網頁信息抽取算法也越來越多。常見的網頁信息抽取算法主要可分為4類:包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預,所以在實際的工程應用中,基于模板的信息抽取算法和模板無關的全自動信息抽取算法以其較強的實用性占據了主流的位置。基于模板的信息抽取通常基于這樣的假設:待抽取的網頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數據。符合這種生成模型的網頁都可以利用網頁模板分析方法來抽取;ヂ摼W上大量存在的動態網頁是由機器生成的(例如論壇)網頁。基于模板的信息抽取的工作流程是:1)利用多個同類型網頁中具有共性的不變的部分生成一個模板;2)根據模板對同類型網頁進行抽取。因為此類算法過濾了網頁中的大量模板,只留下了數據,同時自動還原出了數據的結構,使得用戶在付出較小人工代價的同時,能夠獲得較為準確的關鍵信息。因此此類算法一直都是網絡應用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對同類型的網頁生成一個模板。模板的準確性直接決定了后續信息抽取的精確度。隨著網頁復雜性以及同一類型網頁的差異性的增大,生成的模板準確性隨之降低。模板無關的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經驗規則處理特定領域或特定格式的網頁,例如,經典的全自動信息抽取算法 MDR。

  該算法的缺陷在于通常基于過強的假設。以網頁正文抽取為例。網頁的正文往往是各大網絡應用都需要的關鍵信息,有不少針對正文抽取的模板無關的全自動抽取算法。CoreEx是通過計算 DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標簽的密度來確定正文所在的范圍。CETD結合了二者優點。這些算法自動化程度高,通用性強,但是效率較低,且假設過強,精確度不如基于模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網頁。因此這種方法的效率較低。在以往的文獻中,較少看到將模板無關的全自動信息抽取算法和基于模板的信息抽取算法結合使用的相關研究。在本文提出的框架中,巧妙地將這兩種算法有機地結合起來,使得二者能夠取長補短,從本質上提高信息抽取的質量。

  3可擴展的網頁關鍵信息抽取框架

  3.1框架概述如圖1所示,框架的輸入是一批原始訓練網頁,或者其他信息抽取算法的抽取結果。需要說明的是,這些抽取結果帶有 HTML標簽結構,如圖2和圖3所示。然后將這些訓練網頁或抽取結果隨機平均分成k份,每一份均通過模板生成算法,生成關鍵信息模板集。再通過模板的正交過濾算法,生成候選的關鍵信息模板。接著通過模板的特征過濾算法,生成最終的關鍵信息模板。最后根據最終模板對同類型網頁進行抽取。該框架具有很好的擴展性,主要體現在以下幾個方面。

  (1)關鍵信息模板集合生成算法的輸入部分,是一批原始訓練網頁,或者其他信息抽取算法的抽取結果。這里的抽取算法一般是模板無關的全自動抽取算法。這些算法已經根據需求對原始網頁進行了一次噪音過濾。因此,對于框架中的模板生成環節,把這些抽取結果作為訓練數據輸入,和把原始網頁作為輸入相比較,能夠獲得更精確的模板。另一方面,用模板無關的全自動抽取算法處理不符合算法假設的網頁時,噪音過濾的效果不夠好。對于這種情況,通過把抽取結果輸入到框架中,經過后期一系列的模板生成、基于模板的抽取,能夠進一步過濾掉噪音,從而增強了模板無關的全自動抽取算法的適應性。這兩方面結論在第5節的實驗結果將有展示。

  (2)特征過濾算法部分,可以根據要抽取的信息特征,替換相應的算法。

  (3)在模板生成過程中,框架將關鍵信息模板集、候選的關鍵信息模板等中間結果存入磁盤,當再次遇到同類型網頁時,可以直接從磁盤上讀取模板的中間結果。

  (4)基于模板的信息抽取算法的輸入可以是框架中生成的模板,也可以是人工配置的模板。框架中的關鍵技術點有模板的表示、關鍵信息模板集合的生成算法、模板的正交過濾算法、模板的特征過濾算法,以及基于模板的抽取算法。3.2.2關鍵信息的模板集合生成算法單記錄頁面生成關鍵信息模板集合的算法如下:首先建立 DOM 樹。刪除CSS、Script等節點。去掉br和p節點,將相鄰的段落合并,即合并相鄰的葉子節點。標簽名和屬性名、屬性值一樣的相鄰節點,則將它們合并成一個節點。這樣可以盡可能保證各關鍵信息不被分割。接著將 M 棵 DOM 樹對齊并合并。將對齊后每一個位置對應的n個節點,有選擇地插入到站點版塊風格樹SBSTree(siteboardstyletree)中(圖4中的數字代表該節點重復度dump,即該節點出現的次數):如果全是標簽節點,則將第一個標簽節點插入到SBSTree中相應位置;如果全是文本葉子節點,則統計并記錄每個文本葉子節點出現的次數,并將內容互不重復的文本葉子節點全部插入到SBSTree中相應位置 (同一個父節點下);如果部分是文本葉子節點部分是標簽節點,則選擇第一個標簽節點插入到SBSTree中相應位置,統計并記錄每個文本葉子節點出現的次數,并將內容互不重復的葉子節點也全部插入到SBSTree中相應位置 (同一個父節點下)。圖4DOM 樹合并合并后的DOM 樹具有如下特征:對于網頁中公共的信息,例如,導航、網站聲明,其對應的合并后的樹中的葉子節點的重復度dump為 M,并且該節點的父節點只有一個葉子節點。而各個網頁的關鍵信息,由于不相同,因此它們的父節點的葉子節點個數小于 M,并且大部分葉子節點的重復度為1。

  計算每個重復度大于1的葉子節點的平均重復度dump。最后將所有子節點含有重復度大于dump的葉子的節點轉換成模板。多記錄頁面生成所有關鍵信息模板算法如下:首先,建立 DOM 樹。刪除 CSS、Script等節點。其次將 M 棵 DOM 樹中含有style和class屬性,且所有屬性名和屬性值一樣的節點各自聚類。橫向比較每一類節點在 M 棵 DOM 樹中的數量及其葉子內容的變化,并記錄個數相關的節點類,它的節點個數隨著記錄個數的變化而變化。例如,跟帖的正文節點、跟帖的作者ID節點的數量和正文的節點數量是一致的。

  而那些非關鍵信息,有一部分節點個數和記錄個數保持一致,但是內容基本不變,另一部分出現的次數和正文節點無關。最后對于每棵DOM 樹中,節點數量和內容都有變化的節點,認為是所有關鍵信息節點。將其轉換成模板。3.2.3模板的正交過濾一般的全自動模板生成算法,都是通過訓練輸入的所有網頁,生成一個包含所有關鍵信息的模板集合。這種做法生成的模板精度較低,模板的結果受輸入的訓練網頁的影響較大。在此我們提出了正交過濾算法,該算法對生成的關鍵信息模板集合進行正交過濾,以保證獲得更加準確的候選模板。

  4實驗為了驗證本文

  提出的可擴展的網頁關鍵信息抽取框架的有效性,我們以抽取新聞的正文為例在該框架上進行了實驗。CETD是目前較新的全自動的網頁正文抽取算法,文獻表明該算法能夠獲得較好的抽取效果。為了展示本框架能夠增強模板無關的全自動抽取算法的適應性,我們使用算法 CETD作為對比算法,并將其作為框架中的模板無關的全自動抽取算法。

  4.1實驗數據與環境新聞的實驗數據是來自10個新聞網站的國際頻道的網頁共2000個。這些網站覆蓋了各大主流的新聞網站,且網頁在 HTML結構方面也幾乎覆蓋了各種情況,因此,保證了實驗數據的多樣性。實驗機器配置為IntelQ9300雙核CPU,4GB內存,運行環境為ubuntu平臺,程序由C++開發實現,編譯器為gcc。

  4.2評價方法通過人工標注,我們獲得2000個網頁的正文作為參考結果。假設a是參考結果,b是抽取結果,那么準確率4.3實驗結果與分析為了檢驗本文提出的信息抽取框架的有效性,我們設計了4組實驗,如表1所示。1)使用本框架生成的模板進行信息抽取的實驗2)使用模板無關的全自動抽取算法(CETD)抽取3)使用模板無關的全自動抽取算法的抽取結果作為訓練網頁生成模板的實驗4)使用本框架,但是沒有對模板進行正交過濾其中第1組和第3組的對比實驗用于檢驗利用模板無關的全自動抽取結果作為訓練樣例生成模板的有效性。第1組和第4組的對比實驗用于檢驗正交過濾算法的有效性。第2組和第3組的對比實驗用于檢驗整個框架的有效性。

  從結果中,我們可以得出以下結論。(1)從第3組和第1組實驗結果可以看出,使用模板無關的全自動抽取算法的抽取結果作為訓練網頁生成模板的抽取結果要好于直接用訓練網頁生成模板的抽取結果。(2)從第4組和第1組實驗的結果可以看出,引入正交過濾算法后,生成的模板的抽取結果要好于沒有對模板進行正交過濾的抽取結果。(3)從第1組和第2組實驗的結果可以看出,該框架的整體抽取結果要好于模板無關的全自動抽取結果。(4)通過對抽取結果錯誤的網頁進行分析發現,抽取錯誤的主要因素有如下3點:1)有些 HTML頁面標簽缺失,從而造成部分標簽被當作正文抽取出來。2)有些網頁的正文開頭或結尾的作者、來源等噪音和正文是連在一起的。3)有些網頁的副標題或者摘要僅通過換行標簽和正文區分開來,和正文沒有區別。(5)全自動抽取算法的抽取結果作為訓練網頁以及正交過濾算法對一小部分板塊的網頁抽取效果不明顯,但是從十個板塊的平均值上可以看出,這兩種算法對結果的正確率和召回率都有一定的提高。在運行效率方面,我們也做了實驗。該框架生成的模板平均每個頁面的處理時間為8.59ms,而模板無關的全自動抽取算法平均每個頁面的處理時間為24.72ms。

  可以得出這樣的結論,在在線抽取過程中,用該框架生成的模板對網頁進行抽取,比用模板無關的全自動抽取算法抽取的速度快近2倍。5結論與未來工作本文提出了一種可擴展的網頁關鍵信息抽取框架,該框架很好地融合模板無關的全自動信息抽取算法和基于模板的信息抽取算法。實驗結果表明,該框架能夠在抽取精度和效率方面有本質上的提高。該框架中一些關鍵環節可根據需求進行替換,因此該框架具有很好的可擴展性。

  同時,本文還提出了模板的正交過濾算法,將該算法引入基于模板的抽取算法中,能夠從本質上提高生成的模板的準確性,最后的實驗結果也充分驗證了這一結論。在未來工作中,我們將針對輸入的訓練網頁進行聚類以及引入視覺特征,以改進關鍵信息模板集合的生成算法和模板的正交過濾算法,從而進一步提高生成的模板的精度。

【可擴展的網頁關鍵信息抽取探究論文】相關文章:

寫好論文的關鍵11-18

論文關鍵詞怎么選08-24

論文中的關鍵詞怎么寫11-16

關于大數據時代下的隱私保護探究論文04-14

信息技術論文12-13

成功的關鍵在于勤奮議論文(通用54篇)10-31

計算機信息論文12-14

信息安全管理論文07-29

計算機信息安全論文07-23

信息管理系統論文02-15

主站蜘蛛池模板: 东乡县| 韶关市| 嘉峪关市| 萨嘎县| 湘潭县| 波密县| 昭苏县| 南安市| 东宁县| 河西区| 开鲁县| 宁河县| 清苑县| 耿马| 临西县| 任丘市| 万荣县| 新平| 高陵县| 泸水县| 丰都县| 永顺县| 南溪县| 云安县| 长葛市| 滁州市| 涡阳县| 北安市| 中西区| 兴安县| 新安县| 太原市| 汨罗市| 奈曼旗| 綦江县| 灵璧县| 岳池县| 巴林右旗| 张家界市| 军事| 宁阳县|