3.1獲得評價的候選句子集 通過tofrom表,我們可以獲得一個集合 {B1,B2,B3...},其中Bi對A進行了引用。我們相信,如果Bi對A進行了引用,那么Bi中可能會有一些句子對A進行了評價。一般有以下幾種情況: Bi中的句子出現了A的論文名 Bi中的句子出現了A的作者名 在Bi的reference列表中,如果A出現在第k個位置,那么通常在文章中會利用"[k]"來對A進行引用。 對于(3)的情況,有時候并不只是對k進行引用,可能文章中的一句話代表的是好幾篇文章的工作概括,因此會出現“[i,k,j]”這種類型的符號來對A進行引用,而且出現的概率很高。 如果Bi中的某句話對A進行了評論,那么通常它的前一句話和后一句話也會出現評價的信息 通過上面的5點,我們就可以獲得了Bi中對A進行評價的句子,從而獲得了一個候選句子集,里面的每一句話都不同程度的對A進行了評價。 圖表 2
如圖表 2所示流程,具體實現的時候,先要將Bi按句子進行劃分為一個句子序列{Bis1,Bis2,Bis3.....},然后遍歷這個句子序列,對于每一個句子,按照上面的前四條規則進行評判,如果滿足其中任意一條,則這個句子是候選句子集合中的一個,并將其前后兩個句子也合到一起,添加的候選句子集合中。 最終,得到對A進行評論的候選句子集{e1,e2,e3...},這里面可能會有一些評價來自同一篇論文。 3.2獲得評論段落 獲得了候選句子集之后,我們需要對其進行適當的排序,從中選出較好的幾個句子,最終顯示在頁面上。由于不同的人,對這篇論文的評價可能也不太一樣,因此,就不能簡單的按照這些評價句子與原文的相似度來進行打分排序了,因為這樣會造成和原文觀點相近的評分較高,不是我們希望獲得的結果。實際上,有時候越是和原文的觀點不同,反而可能越重要,它可能是對這篇文章的批判,也有可能是原文的作者在寫paper時沒有發現的一些問題,這對我們尋找后續工作時可能會非常重要。 我們在提取數據的同時,會獲得每一篇文章的citation信息,代表這篇文章被引用的次數,一般,一個較好的文章,被引用的次數也應當比較多,因此,對于每一個評價,根據它所在文章的被引用次數進行排序,可以獲得較為專業,也較為合理的結果。 同時,需要注意的是,如果一個篇論文的被引用次數很高,而且它又有兩段評論原文的句子時,那么這兩段會一起出現在最終的結果里,在這里我們就需要對結果進行調整,保證在權重相同的情況下,盡可能選擇盡量不同的文章的評論。
第4章 建立模型并生成基于影響的概括 通過獲得了對源論文的評論集合,下面就可以與源論文建立模型來獲得基于影響的概括。所謂基于影響的概括,簡單來說,就是某句話與評論之間的關系越緊密,那么這句話的影響力就越大。最終將影響力最大的幾個句子合在一起,就形成了基于影響的概括。 4.1建模之前我們所有的數據 在建模之前,我們先來看看我們已經獲得了哪些數據: (1)所有論文集合D,以及D里所出現的所有單詞,構成一個單詞表V,并且可以統計出每個單詞w出現的次數C(w,D) (2)對于一篇論文d,將其劃分為多個句子{s1, s2, s3……} (3)已經獲得了這篇論文進行評論的所有句子{e1, e2, e3……},把他們的集合成為C(Citation Context)。 下面,我們就可以參照KL-divergence算法,對d中的句子s進行打分。這里的打分,主要是基于詞頻以及相似度來做的。
4.2建模算法 首先,為任何一個句子打分的公式Score(s)如下:
從信息理論的觀點,其中即為KL-divergence,可以被解釋為通過句子s來表示基于影響的段落,需要從文章中刪除的信息量。顯然,其值越小,Score則越大,它也越能代表文章以及其他文章對它的評價的意思(因為它只要刪除較少的信息) 可以看出,公式中最重要的是求出和。 首頁 上一頁 1 2 3 4 5 6 下一頁 尾頁 3/6/6 相關論文
首頁 上一頁 1 2 3 4 5 6 下一頁 尾頁 3/6/6
本站部分文章來自網絡,如發現侵犯了您的權益,請聯系指出,本站及時確認刪除 E-mail:349991040@qq.com
論文格式網(www.donglienglish.cn--論文格式網拼音首字母組合)提供其他論文畢業論文格式,論文格式范文,畢業論文范文