基于PARADISE平臺的論文檢索系統(三)

本論文在其他論文欄目，由論文格式網整理,轉載請注明來源www.donglienglish.cn,更多論文,請點論文格式范文查看
上面的工作完成之后，我們獲得了所有的基本信息，其中，最重要的，獲得了tofrom表，該表的key是一篇論文A的ID，value是引用A的所有論文ID的集合。下面我們就要結合前面獲得的數據，包括論文的文本、元數據，來獲得一篇論文的評論集。

3.1獲得評價的候選句子集
通過tofrom表，我們可以獲得一個集合 {B1,B2,B3...}，其中Bi對A進行了引用。我們相信，如果Bi對A進行了引用，那么Bi中可能會有一些句子對A進行了評價。一般有以下幾種情況：
Bi中的句子出現了A的論文名
Bi中的句子出現了A的作者名
在Bi的reference列表中，如果A出現在第k個位置，那么通常在文章中會利用"[k]"來對A進行引用。
對于(3)的情況，有時候并不只是對k進行引用，可能文章中的一句話代表的是好幾篇文章的工作概括，因此會出現“[i,k,j]”這種類型的符號來對A進行引用，而且出現的概率很高。
如果Bi中的某句話對A進行了評論，那么通常它的前一句話和后一句話也會出現評價的信息
通過上面的5點，我們就可以獲得了Bi中對A進行評價的句子，從而獲得了一個候選句子集，里面的每一句話都不同程度的對A進行了評價。
圖表 2

如圖表 2所示流程，具體實現的時候，先要將Bi按句子進行劃分為一個句子序列{Bis1,Bis2,Bis3.....}，然后遍歷這個句子序列，對于每一個句子，按照上面的前四條規則進行評判，如果滿足其中任意一條，則這個句子是候選句子集合中的一個，并將其前后兩個句子也合到一起，添加的候選句子集合中。
    最終，得到對A進行評論的候選句子集{e1,e2,e3...}，這里面可能會有一些評價來自同一篇論文。
3.2獲得評論段落
獲得了候選句子集之后，我們需要對其進行適當的排序，從中選出較好的幾個句子，最終顯示在頁面上。由于不同的人，對這篇論文的評價可能也不太一樣，因此，就不能簡單的按照這些評價句子與原文的相似度來進行打分排序了，因為這樣會造成和原文觀點相近的評分較高，不是我們希望獲得的結果。實際上，有時候越是和原文的觀點不同，反而可能越重要，它可能是對這篇文章的批判，也有可能是原文的作者在寫paper時沒有發現的一些問題，這對我們尋找后續工作時可能會非常重要。
    我們在提取數據的同時，會獲得每一篇文章的citation信息，代表這篇文章被引用的次數，一般，一個較好的文章，被引用的次數也應當比較多，因此，對于每一個評價，根據它所在文章的被引用次數進行排序，可以獲得較為專業，也較為合理的結果。
  同時，需要注意的是，如果一個篇論文的被引用次數很高，而且它又有兩段評論原文的句子時，那么這兩段會一起出現在最終的結果里，在這里我們就需要對結果進行調整，保證在權重相同的情況下，盡可能選擇盡量不同的文章的評論。

第4章建立模型并生成基于影響的概括
通過獲得了對源論文的評論集合，下面就可以與源論文建立模型來獲得基于影響的概括。所謂基于影響的概括，簡單來說，就是某句話與評論之間的關系越緊密，那么這句話的影響力就越大。最終將影響力最大的幾個句子合在一起，就形成了基于影響的概括。
4.1建模之前我們所有的數據
在建模之前，我們先來看看我們已經獲得了哪些數據：
(1)所有論文集合D，以及D里所出現的所有單詞，構成一個單詞表V，并且可以統計出每個單詞w出現的次數C(w,D)
(2)對于一篇論文d，將其劃分為多個句子{s1, s2, s3……}
(3)已經獲得了這篇論文進行評論的所有句子{e1, e2, e3……},把他們的集合成為C（Citation Context）。
下面，我們就可以參照KL-divergence算法，對d中的句子s進行打分。這里的打分，主要是基于詞頻以及相似度來做的。

4.2建模算法
首先，為任何一個句子打分的公式Score(s)如下：

從信息理論的觀點，其中即為KL-divergence，可以被解釋為通過句子s來表示基于影響的段落，需要從文章中刪除的信息量。顯然，其值越小，Score則越大，它也越能代表文章以及其他文章對它的評價的意思（因為它只要刪除較少的信息）
可以看出，公式中最重要的是求出和。

首頁上一頁 1 2 3 4 5 6 下一頁尾頁 3/6/6

相關論文


上一篇：試論嘉興市的電子化政府建設	下一篇：永不停歇的永遠――談鐵凝的創作..

Tags：基于 PARADISE 平臺論文檢索系統

【收藏】【返回頂部】