基于PARADISE平臺的論文檢索系統(二)

本論文在其他論文欄目，由論文格式網整理,轉載請注明來源www.donglienglish.cn,更多論文,請點論文格式范文查看
我們知道，國外的PHD學生在第一年的學習之后都是要通過QE考試的，考試的形式一般是先讀幾十篇論文，然后根據這些論文的內容進行答辯。這時候，他們往往很想知道別人是如何評價這篇論文的，這篇論文有什么優點和缺點，有什么后續的研究等等。這就像我們準備去一個地方旅游，不僅需要該景點本身的介紹（有點類似于摘要），往往更想知道去過這個地方的人都是如何評價這些地方的。通過對這篇論文的評價，我們可以從更專業并且更加廣闊的角度獲得這篇論文的一些信息，并且可以知道在這篇論文工作之后可以做哪些事情。
基于上面的觀點，我們就準備做出這樣一個知識提取系統，通過這個系統，可以自動獲得別人對這篇論文的評價[Nanba and Okumura,1999 ]，以及論文中的一些較有影響力的信息，從而幫助人們更好的理解這篇論文。整體流程如圖表 1所示。
在 [Mei and Zhai,2008]中，作者利用KL-divergence算法建立了一個模型，生成了一篇論文基于影響的概括，但是它并沒有強調評論的重要性（這里的評論，是指別的作者對它引用的一篇文章的評論），它只講評論當成一個中間狀態，當成一個求得基于影響的概括的手段。實際上，這些評論和最終經過KL算法形成的概括是同等重要的，有時候，它甚至比后者更加清晰易懂。本文相對于[Mei and Zhai,2008]的優點是，賦予評論以及概括同等重要的意義，并且形成了一個實際的系統供人使用，而不僅僅是用于研究。

1.2工作內容
1.2.1抓取所需要的論文數據
要進行論文搜索，首先需要一批實驗數據，我是從portal.acm.org上抓取下來的。之所以選擇從這上面抓取，是因為我們不僅需要論文的pdf文檔，還需要從中自動提取摘要、引用等信息，而這本身就應該是一個挺復雜的算法了，而且不是我們工作的目的，而上述網站已經人工的將論文的摘要、引用信息提取了出來，并且對于每一個引用還有相應的鏈接，因此會節省我們抓取數據所要花費的工作量。最終我們將抓取的數據存儲在BerkeleyDB中。
1.2.2獲得一篇論文的評價并較好的顯示出來
我們這個系統的主要工作是通過別的論文對原論文的評論，來獲得一些不能直接從原論文中獲得的信息，因此，最基礎的，就是如何獲得這些評論。關于這一點，我們通過上面的數據收集工作，會獲得一個論文之間的引用圖，然后通過引用的倒置，能夠獲得引用一篇論文的所有文章，然后，通過一個算法，可以從這些文章中提取出對原文進行評價的句子。最終，為了便于使用者觀看，還需要對這些句子進行一些整理，進行排序、整理成一個段落出來。
1.2.3獲得一篇論文基于影響的總結段落
在獲得對原文進行評論的句子之后，將原文劃分成一個一個的句子，我們利用了KL-divergence算法（參看[Croft, et al.,2009]的7.3節），對這些句子進行打分，這里分數的高低，代表了原文中每一個句子影響程度的高低，顯然，影響越大的句子，在別的文章中提及的越多，其分數就越高。最后，我們取一定數量得分最高的句子，組成一個段落，這個段落是對原文的一個概括，而且會獲摘要所不能獲得的一些信息。
1.2.4基于PARADISE平臺搭建搜索平臺
我們基于PARADISE搜索引擎平臺搭建成了一個關于pdf的全文搜索系統。 PARADISE由預處理，建立索引，檢索，前臺四部分組成。由于我們的數據是論文，并且已經轉化為了txt文本格式，預處理這一部就略去了，需要繼承一個建立索引的類，并且修改一些前臺的接口就可以了，這樣就搭建成了一個論文搜索系統。這一過程也體現出了PARADISE的可擴展性及易用性，PARADISE中的每一個組件都是可以通過繼承一個自定義的新類來完成的，其中包括預處理、索引、檢索、語言模型、排序、壓縮等等所有的模塊都可以自己選擇或者自己重新定義來完成。
1.3實驗的意義
我們在讀一篇論文之前，一般能簡單的看到它的摘要、作者等信息。而在讀完一篇論文之后，我們能獲得什么信息呢？主要有以下幾種：
這篇文章做了什么事情，這可以從摘要中獲得。
這篇文章中涉及到的核心算法，這個只有在細致的讀完了這篇文章之后才能理解，應該是沒法依靠輔助來獲得的。
這篇文章哪些部分比較重要，哪些部分比較好，哪些部分需要改正，我們可以從哪些方向進行擴展。
對于第三點，如果完全自己理解，可能會比較困難，而且對讀者自己的要求也比較高，可能要讀了很多這方面的背景知識、后續論文等等才可能獲得，而通過我們做的這個系統，就可以幫助大家更簡單的獲得一些從文章中不能直接獲得的信息。
一般來說，作者如果想從自己的角度歸納本文的大體內容，通過閱讀摘要，我們可以看到作者寫這篇文章大體做了什么。但是文章中很有可能有一些作者沒有發現，或者作者當前沒有重視但是以后被別人發掘出來很重要的意義。通過將那些對文章進行引用的句子，與本文建模，對原文中的句子進行排序，從而獲得文章中一些有特殊意義，影響較大的句子，這樣，我們可以獲得文章中最重要的信息，而這些重要信息和摘要的區別就是，它們不是作者提出來的，而是別的作者在讀了這篇文章以及其他的文章，經過很多思考之后，總結出來的這篇文章最重要的地方。
此外，別的文章中對原文進行評論的句子[Nakev, et al.,2004]，本身就是很重要的信息，可以讓我們知道原文都做了哪些后續工作，或者哪些部分比較好，哪些部分需要改正。
簡單來說，我們這個系統的意義，就是通過數據挖掘的方法，獲得一些直接從原論文很難發現的信息，并且結合PARADISE系統，以搜索引擎的方式呈現出來，便于大家檢索查找。

第2章數據的收集
我們這個系統的目的是為了方便讀者理解論文，因此除了需要基本的論文的pdf格式，還需要提取發表期刊、作者、摘要、被引用次數，引用文章這些信息。其中，發表期刊、作者以及被引用次數是用來在后面獲得comment以及impact-based summary進行排序的時候加權用的，顯而易見，較好的期刊，較有名的作者，引用次數較高的文章，它做出的評價應該要重要一些（當然，這里只是預留著為以后的擴展用，而我們的系統實際上并沒有用到作者的知名度信息）。當然，其中最重要的是提取引用的信息。我們的目標是通過獲得每篇文章所引用過的文章，建立一個映射表，然后將映射表倒置過來，從而獲得每篇文章被哪些文章引用過。
2.1如何提取數據
  首先，是如何提取文章的摘要等各種信息了。本來我是準備直接從文章中提取的，隨著工作的深入，發現這樣做有很多的缺點，首先，從paper中提取各種信息就是一個很繁重的工作，這本身就可以當做一個畢業設計來做了，會消耗大量的時間，但卻不一定能夠達到工作的目的；其次，最重要的是，在每一篇文章里，reference是以（作者，文章名，發表期刊，年份）的形式表現出來的，例如：
G. Luecke, H. Chen, J. Coyle, J. Hoekstra, M. Kraeva,and Y. Zou. MPI-CHECK: A tool for checking Fortran90 MPI programs. Concurrency and Computation:Practice and Experience, 15:93–100, 2003.
而我們存儲每篇文章的時候，是以期刊作為文件夾，以文章標題作文文件名來存儲的，例如這篇論文，以下面的形式存儲的。
pdf/Concurrency_and_Computation:Practice_and_Experience/MPI-CHECK:_A_tool_for_checking_Fortran90_MPI_programs.
  因此，我們需要從上面的那句話中提取會議名以及文章名，才能獲得文章之間的引用關系，建立一個FromTo表。這之中即使是相差一個空格都不行，會直接導致整個系統的失敗。
于是，我們想出了一個簡單的辦法。可以看到，在portal.acm.org上，每一篇論文的格式都是規整的，從上面可以很容易的提取出摘要、文章名、期刊等信息，可以下載到pdf版的文件；更重要的是，對于論文的引用信息，在該網頁上給出了一個超鏈接，點擊之后就可以進入引用的文章的信息。因此，可以利用遞歸的方法，進入引用的文章，從中提取出會議名以及文章名，這樣，每篇文章的引用就可以形成上面的格式，并且是完全正確的，方便我們建立引用映射表。
  接著，要設定遞歸的種子以及遞歸的層數。因為我們的實驗所需要的數據最好是在一個領域里面的相同方向的論文，并且需要引用關系較緊密的，以便于后續的工作，因此，這里采用WWW會議的文章作為種子，對于每一篇文章遞歸三層。如果遞歸四層，就會太多了。假設一篇文章有十個引用，那么遞歸四層，就會導致每從WWW會議中抓取一篇文章，就需要抓取1000篇相應的其他文章，這個數量實在是太大了；如果遞歸兩層，就會導致每篇文章只能抓取其引用的文章，這樣引用的層次較淺，很有可能導致最后引用倒置時，每一篇文章只被一兩篇文章引用，這樣不利于我們的實驗。
最后，我們需要將pdf轉化為txt格式，這是利用Linux自帶的pdf2txt工具來實現的。這個工具不支持對文件夾的遞歸操作，因此，我用python寫了一個腳本，通過遞歸操作，可以將一個sourceDir里面的所有pdf文件遞歸轉化為txt文件，并按照原來的相對路徑存在destDir里面。
2.2數據抓取的過程
確定好抓取數據的大體方法，下面開始正式抓取數據。所用的工具比較簡單，就是利用Linux下的wget工具，下載網頁并進行分析。另外我們這里利用了第三方庫boost::regex，這種正則表達式非常適合從網頁中進行模式匹配并且提取出數據。有了前面的兩項工具，我們只需要分析好網頁的模式，盡量正確的提取數據既可以了。需要注意的是，由于網頁并不是完全規整的，因此，有時候，對于同一個數據，往往要寫多種匹配的公式才可以，這其中，最麻煩的當屬提取引用部分了（我們不僅要提取引用，還要提取這個引用對應得url，從而遞歸進入提取它的論文名）。
以提取作者信息為例：
<a href="author_page.cfm?id=81100472691&coll=portal&dl=ACM&trk=0&CFID=23904299&CFTOKEN=88670161" target="_self">Yong Yu</a>
我們需要從上面的公式中提取出作者名，需要以下幾步：
利用boost regex公式寫一個正則表達式匹配上面的文本
boost::regex ePaperAuthors(
"<td class=\"small-text\">\\s*<a href=\"[^\"]*?author[^\"]*\" target=\"_self\">([^<>]*?)</a>\\s*</td>"
,boost::regex::normal |boost::regbase::icase);
其中引號中的內容為匹配的正則表達式，注意其中的一對小括號，其中的內容就是我們需要提取的信息
利用split函數，將結果存入list里面
list<string> authors;
boost::regex_split(std::back_inserter(authors), content, ePaperAuthors);
這樣，文章中所有匹配上面正則表達式的字符串，其中的作者信息（即上面括號中的內容），都會存在authors這個容器里面
還需要注意的一點就是，由于網頁的不規整性，所以要排除一些錯誤的情況。還有一些文章，確實沒有摘要、引用或者其他信息（這些文章多出現在引用鏈的頂層，主要是一些書籍等參考資料，所以也比較正常），遇到這些情況我們就不抓取下來了。
2.3數據的存儲及解析
  在將數據從網頁下載下來之后，需要存儲起來。首先，對于pdf的格式，只能存在文件系統里，按正常的方式存儲。對于其他的信息，這里選擇存儲在Berkeley DB（簡記為BDB）里面。BDB是一種輕量級的數據庫，Mysql等數據庫底層就是利用BDB來完成的。它的優點是可移動性，不用像Mysql那樣搭建服務器，而且讀取數據時較快。對于每一篇文章的基本信息metadata，按照表格 1中的形式存入BDB中：
表格 1
Key int64_t的一個整數
Value 字符流,存儲元數據信息，按如下格式：
**************************************************name
**************************************************source
**************************************************abstract
**************************************************citationCount
**************************************************authors
**************************************************references
**************************************************referenceName
**************************************************url

獲得這些基本信息之后，我們還要根據這些元信息，陸續建立一些BDB文件，用于存儲其他信息，如表格 2：
表格 2
文件名 Key Value
content.dpt int64_t的整數，論文ID 這篇論文的全部文本內容
fromto.dpt int64_t的整數，論文ID 用于存儲一篇論文所引用的所有文章
tofrom.dpt int64_t的整數，論文ID 用于存儲一篇論文被哪些文章所引用
comment.dpt int64_t的整數，論文ID 存儲最終要顯示在頁面上的文章的評價
summary.dpt int64_t的整數，論文ID 存儲最終要顯示在頁面上的基于影響的文章的概括

其中content.dpt是通過將pdf格式轉化為txt之后獲得的。fromto.dpt是對整個論文的引用關系圖進行解析獲得的，從上面的元數據中，我們可以獲得每篇論文所引用的論文的名稱，這樣，我們可以通過這些名稱，來獲得這個論文所引用的所有論文的ID號，并且存儲到數據庫中。獲得fromto.dpt之后，對其進行倒置，就可以獲得tofrom.dpt的內容
這里之所以選擇BDB進行存儲，是因為它有以下這些優點：
嵌入式（Embedded）：它直接鏈接到應用程序中，與應用程序運行于同樣的地址空間中，因此，無論是在網絡上不同計算機之間還是在同一臺計算機的不同進程之間，數據庫操作并不要求進程間通訊。
BDB為多種編程語言提供了API接口，其中包括C、C++、Java、Perl、Tcl、Python和PHP，所有的數據庫操作都在程序庫內部發生。對于我們這個系統，后臺程序是由C++完成，而前臺程序是由Python完成，他們都會共同訪問一些文件，通過存儲在BDB進行存儲，就解決了不同語言之間兼容的問題。
輕便靈活（Portable）：它可以運行于幾乎所有的UNIX和Linux系統及其變種系統、Windows操作系統以及多種嵌入式實時操作系統之下。它并不需要搭建一個數據庫服務器，以用戶、服務器形式訪問數據庫，而是以函數調用的形式。一旦BDB被鏈接到應用程序中，終端用戶一般根本感覺不到有一個數據庫系統存在。這樣提高了我們的系統的實用性，當用戶需要自己搭建一個我們的論文系統時，不用再去搭建數據庫服務器，進行各種繁瑣的配置。

第3章生成評論集

首頁上一頁 1 2 3 4 5 6 下一頁尾頁 2/6/6

相關論文


上一篇：試論嘉興市的電子化政府建設	下一篇：永不停歇的永遠――談鐵凝的創作..

Tags：基于 PARADISE 平臺論文檢索系統

【收藏】【返回頂部】