基于知識庫的的問答式系統的研究 引言 問答系統的產生 語言是人類思考問題和交流思想的工具,是思維表達的載體,人類百分之七十以上的信息是通過自然語言來傳遞的。因此,自然語言理所當然的成為人機交互語言的首選。 近年來,隨著Internet在世界范圍內得到了迅猛的發展,網絡信息也隨之急劇增加。對網上信息的存取、挖掘、檢索、過濾等問題的探索及研究成為信息領域的熱點,極大地推動了信息檢索相關技術的發展。信息檢索、搜索引擎(如Google、Baidu等)在很大程度上方便了人們對信息的快速查詢,但是,如何在這些海量信息中快速、準確地找到所需要的信息似乎變得越來越困難。例如:網絡信息過于復雜、繁冗,用戶不能有效的識別、使用;計算機不能識別不同的日常術語,甚至給出與用戶的問題根本無關的信息;計算機一般只能提供相關信息,給出最后答案的形式無法滿足人們的需求。 傳統的搜索引擎查詢序列是一系列關鍵詞的組合,而不是以自然語言的形式提供的,同時其返回的結果是與查詢相關的網頁的列表,用戶必須自己從這些文檔中找到相關的信息,占用了相當大的時間。為了達到合理地、科學地管理現有的信息資源,有效的利用信息資源并在最短的時間里提供給用戶簡潔而方便的信息,人們提出了問答式系統。 問答式系統,是指系統接受用戶以自然語言形式描述的問題,并從大量異構資料中查找出能回答該問題的準確、簡潔的答案的信息檢索系統[1]。目前我們所熟悉的問答系統大致可以分三類:基于常問問題集的問答系統,基于百科知識的問答系統以及開放域的問答系統。基于常問問題集的問答系統又可以作為后兩種問答系統的一個組成部分,如果用戶的提問與以往的記錄相符,可直接將對應的答案提交給用戶,免去了重新組織答案的過程,可以提高系統的效率。 問答系統發展及現狀 問答式系統的發展已有很長的歷史了,早在60年代人工智能研究剛開始的時候,人們就提出了讓計算機用自然語言來回答人們的問題,說的就是指自動問答系統。過去的一段時間里,我們所接觸到的只是它的雛形---問題回答系統[2]。在這一研究方向上最早的嘗試是1972年Winograd研制的SHRDLU系統,該系統可以簡單的回答一些物理問題。 早期比較著名的問題回答系統包括Dyer的BORIS系統等。Lehnert[3]等人對自然語言問句的分類方面進行了有益的探索。早期的系統通常以手工編寫的領域知識,用戶經常詢問的問題及一些報刊文章作為系統的基礎,限于當時的技術條件,問題回答系統技術的研究在很長的一段時間里發展十分緩慢。誕生于1993年的START[4]系統是第一個面向互聯網的自然語言問答系統(由麻省理工學院(MIT)開發,它從1993 年開始發布在Internet)。可以回答一些有關地理、歷史、文化、科技、娛樂等方面的簡單問題。比如:對于問題“What is the longest river in the world?”Start 將會回答“With a length of 4,180 miles, the Nile River is the longest river in the world。”另外還有一個比較成熟的問答系統Answer Bus 的網址是:http://misshoover.si.umich.edu/~zzheng/qa-new/.Answer Bus是個多語種的自動問答系統,它不僅可以回答英語的問題,還可以回答法語、西班牙語、德語、意大利語和葡萄牙語的問題。在此背景下,問題回答系統逐漸演變成了問答系統。我們相信,在未來的時間里,它會進一步演變。 問答系統同時兼具了信息檢索系統[5]和信息抽取系統[6]的優點。首先,它采用自然語言問句的方式與用戶進行交互,這是廣大的計算機用戶所樂于接受的、最為簡單直觀的交互方式。同時,由于自然語言問句豐富的表現力,而使對問題的精確刻畫成為可能。其次,它直接返回蘊含答案的文本片斷,極大地提高了用戶尋找答案的效率。第三,它易于實現,而且對應用領域沒有十分苛刻的要求,因此,這種系統成為Internet信息搜索領域的一個非常引人注目的研究熱點。但是它仍有一些不足之處:首先是采用自然語言問句的方式,這樣雖然方便了用戶的使用和操作,但漢語言本身的豐富性給此系統的實現帶來了繁重的工作。其次是目標框架的建立。在對自然問句的處理的過程中,可提取的關鍵詞是豐富的,因為不同的人有不同的提問方法,對應就要產生不同的關鍵詞。因此系統要具備自學習能力,以豐富目標框架,增加尋找答案的正確率。 近幾年,隨著網絡和信息技術的快速發展及人們想更快地獲取信息的愿望,重新促進了自動問答技術的發展。最近有越來越多的的公司和科研院所參與了自動問答技術的研究。比如,微軟和IBM等著名的跨國公司。在每年一度的文本信息檢索(TREC)會議上,自動問答(Question Answering Track)是最受關注的主題之一。越來越多的大學和科研機構參與了TREC 會議的Question Answering Track。在2000 年10 月召開的ACL2000 國際計算語言學學術會議上,有一個專題討論會,題目是”Open-Domain Question Answering”。 國內也有一些高等院校及研究機構參與了自動問答技術的研究:中科院計算所、復旦大學、哈爾濱工業大學、香港科技大學等。但是參與中文自動問答技術研究的科研機構比較少,而且基本沒有成型的中文自動問答系統。 問答系統問答原則 (1)允許用戶輸入自然語言問句 <1>符合人的習慣 <2>精確刻畫信息需求 (2)系統直接返回答案或者蘊含答案的文本片斷 <1>提高信息檢索的效率 <2>精確度是問答式信息檢索的首要指標 本文研究內容及方向 在本文,我們提出基于知識庫的問答系統,可以理解它是上述三類問答系統的一種綜合。 1.4.1 基于知識庫的問答系統 所謂“基于知識庫”問答式系統,是這樣的一個系統:接受用戶以自然語言形式描述的問題(例如:CBA代表什么意思?),通過模式匹配及關鍵詞替換,然后把標準關鍵詞提交給網絡,查找網絡上的信息并抽取相關信息,返回給用戶準確、簡潔的答案(例如:“中國籃球協會”或者:“Chinese Basketball Association”)。因此,知識庫問答系統與根據關鍵詞檢索并返回相關文件集合的傳統搜索引擎有著根本的區別。它能夠向用戶提供真正有用、精確的信息,將是下一代搜索引擎的理想選擇之一。可以想象,經過幾年的發展,基于知識庫的問答系統可成為自然語言處理領域和信息檢索領域的重要分支和新興研究熱點[7]。 本系統是一個基于定領域---體育領域(CBA)的問答系統。系統需要對用戶提交給它的自然語言問句進行分析,理解用戶問句,找出合理的特征及關鍵詞并提交給后臺,后臺通過與互連網的連接、查找、處理,返回給用戶相應的的答案。 問題分析、信息搜索和答案抽取是該系統的三個主要部分。對于問答系統來說,首先要多方位的、充分的、正確的理解用戶提出的問題,明確用戶的提問意圖。故在本系統中,問題分析是一個重點。它包括:問題的分類、關系的確定、關鍵詞的提取、關鍵詞的擴展。問題分析之后,緊隨其后的是信息的網絡搜索。借助于網絡搜索,可在網絡中找出相關文檔(我們使用互聯網搜索引擎作為主要工具)。答案抽取部分是問答系統難度較大的一個模塊,它返回的答案形式多樣化給答案的歸納及抽取帶來了不便。 本文通過對上述三個模塊的研究,設計并實驗了一個基于知識庫的問答系統,并對該系統進行了一系列的測驗。 1.4.2 該問答式系統研究目標 ⊙研究基于Web的面向大規模真實網絡文本的問答系統 ⊙目前為受限的特定領域(體育領域) 1.4.3 研究該問答系統的意義 人們可以以自然語言的問句方式對該問答系統提問,把整個問題直接交給問答系統,該問答系統將轉到自動分析用戶的問句,結合自然語言處理技術及相關的語義關系網,進行問題的模式識別、轉換,到常見問題知識庫或者互聯網中搜索相應的答案,再把答案返回給用戶。這樣用戶就可以通過該問答系統方便地獲得自己想要的信息。簡而言之,問答系統就像一個知識淵博的專家,通過對問題理解,可以快速、準確、直接返回給用戶想要的答案[8]。比如,用戶提交一個問題“2005-2006賽季CBA的冠軍是誰?”問答系統將會直接給出答案“廣東隊”。可以看出,問答系統要比傳統的搜索引擎方便、快捷、高效。 各章節內容簡介 第二章 相關技術簡介; 第三章 詳細介紹了系統的設計與實現方法; 第四章 介紹實驗的結果,及對實驗結果的分析; 第五章 系統的不足及今后方向. 第六章 結束語 相關技術介紹 為了實現本系統的功能,即基于知識庫的的問答式系統(CBA方面),我們擬采取了以下輔助工具: ●具體的分析方法及關系模型,參照‘知網’(Hownet)[9] ●用可視化語言Visual Basic6.0進行編程 ●采用了Microsoft Access數據庫對數據進行存儲 以下介紹相關技術。 有關知網的技術 知網(英文名稱為Hownet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫[9]。下面分別簡述知網的研究特點及知網系統的概貌。 首頁 上一頁 1 2 3 4 下一頁 尾頁 1/4/4 相關論文
首頁 上一頁 1 2 3 4 下一頁 尾頁 1/4/4
本站部分文章來自網絡,如發現侵犯了您的權益,請聯系指出,本站及時確認刪除 E-mail:349991040@qq.com
論文格式網(www.donglienglish.cn--論文格式網拼音首字母組合)提供其他論文畢業論文格式,論文格式范文,畢業論文范文