論文格式
      電氣工程 會計論文 金融論文 國際貿易 財務管理 人力資源 輕化工程 德語論文 工程管理 文化產業管理 信息計算科學 電氣自動化 歷史論文
      機械設計 電子通信 英語論文 物流論文 電子商務 法律論文 工商管理 旅游管理 市場營銷 電視制片管理 材料科學工程 漢語言文學 免費獲取
      制藥工程 生物工程 包裝工程 模具設計 測控專業 工業工程 教育管理 行政管理 應用物理 電子信息工程 服裝設計工程 教育技術學 論文降重
      通信工程 電子機電 印刷工程 土木工程 交通工程 食品科學 藝術設計 新聞專業 信息管理 給水排水工程 化學工程工藝 推廣賺積分 付款方式
      • 首頁 |
      • 畢業論文 |
      • 論文格式 |
      • 個人簡歷 |
      • 工作總結 |
      • 入黨申請書 |
      • 求職信 |
      • 入團申請書 |
      • 工作計劃 |
      • 免費論文 |
      • 現成論文 |
      • 論文同學網 |
      搜索 高級搜索

      當前位置:論文格式網 -> 免費論文 -> 其他論文

      基于知識庫的的問答式系統的研究(四)

      本論文在其他論文欄目,由論文格式網整理,轉載請注明來源www.donglienglish.cn,更多論文,請點論文格式范文查看
      (55) 俱 樂 部----------場地 (e)部件-整體關系
      (56) 俱 樂 部----------董事會 (a)同義關系
      (57) 俱樂部贊助者------董事會 (a)同義關系
      ⒉ 關鍵詞的轉換
       上述實體之間的關系,在現實中可以被表達的有多個詞語,而且不同文化背景的人,提出的問題模式及所用到的詞語也會因人而異。同時,我們也要考慮到,對
       體育領域熟悉或不熟悉的人,他們提出的問題模式是否符合這一領域,針對這樣的問題,系統該如何解決呢? 例如:易建聯在哪個球隊打球?這樣的問題很大眾化,也是我們日常所遇見的一種問題模式。盡管我們知道這問題的本質是要詢問“易建聯在哪個球隊?”,但是在網絡信息中,根本無法找到類似“易建聯在**球隊打球”這樣的答案,其它的諸如“誰是CBA季后賽的MVP?”也是如此。關鍵詞的轉換是為了解決這樣的問題而準備的。
       考慮到一般用戶所提出的查詢請求中所包含的信息相對較少,在答案的句子中,某些詞常常不是原來問題的關鍵詞,而是這些詞的同義擴展,如果直接用于網絡搜索引擎則會造成檢索結果效率的低下。例如:問題是“參加2005-2006賽季CBA比賽的球隊都有哪些?”回答的答案卻是:“北京金隅俱樂部……”。問的是球隊,答案卻是俱樂部,這就造成了關鍵詞查詢失敗,因此我們要對關鍵詞進行適當的轉換。
       關鍵詞的轉換雖然提高了系統的召回率,但如果擴展不適當會極大的降低檢索的準確性。一般的方法是使用同義詞擴展、語義擴展等。對關鍵詞的轉換添加了很多限制條件,比如只對名詞的關鍵詞進行擴展。可用Word net或者其他的同義詞詞典來擴展關鍵詞。還有一些問答系統通過統計的辦法來擴展關鍵詞。這種方法需要大量的問題和答案語料來進行訓練。每一類的問題所對應的答案一般都有某種共同的特性。例如,對于詢問地點的問題,答案中經常會出現“在、位于、地處”等關鍵詞。所以通過統計,找出這些詞后,就可以把它們加到query 當中。另外還有一些問答系統是用檢索返回來得相關文檔來對關鍵詞進行擴展[16]。
       轉換后的關鍵詞的重要性往往比從問題中提取的關鍵詞的重要性大,為了提高系統的準確性,很多問答系統又對關鍵詞附了權重,以此區分他們之間的重要性。
       在本模塊關鍵詞的轉換過程中,對關鍵詞的轉換遵從以下幾個原則:
      對句子中給出的關鍵詞,尋找其近義詞、同義詞
      口語化的關鍵詞進行書面化的轉換
      網絡上使用頻率較高
      符合人們的日常用詞習慣
      符合特定領域的用詞習慣
      下面給出本系統中常見的關鍵詞的轉換表,轉換表如表3.2所示:
                表3.2 關鍵詞的轉換表                                繼表3.2       

      關鍵詞 關鍵詞轉換
      有 共有、擁有、允許、包含、包括、管理
      參加 參賽、競賽、比賽、允許、批準、同意
      參加 參賽、競賽、比賽
      簡介 介紹、歷史
      簡介 介紹、歷史
      每周最佳 出色、最好、突出
      CBA常規賽MVP CBA常規賽MVP
      CBA季后賽MVP 決賽、總決賽
      CBA單場最 技術統計、記錄
      球員球隊 效力、隸屬、服務、打
      球員簽約 效力、隸屬、服務
      技術統計 記錄、情況、得分、分數、表現
      在 打、位置
      球員號碼 球衣、號
      球員簡介 籍貫、年齡、多大、年薪、身高、體重、生日、出生、多高、多重
      地方 地點、位于、在、坐落
      球員 簽約、擁有
      教練 執教、聘請、簽約、指導、效力、隸屬、
      簡介 介紹、情況
      關鍵詞 關鍵詞轉換
      球隊贊助商 贊助、俱樂部、隸屬、合同、簽約
      董事長 老板、負責人
      主場 城市
      球隊簡介 正式、合法、使用、注冊、記錄、歷史
      成立 組建、組建于
      成績 記錄、戰績、比分
      排名 記錄、創下、歷史、戰績
      顏色 服裝
      顏色 服裝
      教練簡介 介紹、情況、個人簡介、個人情況
      服務 執教、聘請、簽約、指導、效力、隸屬
      冠軍 第一名
      安排 計劃、日程安排、比賽安排
      比賽規則 有 、按照、使用、遵從
      半決賽記錄 戰績
      CBA南北區 南區、北區、南方、北方
      CBA球迷 Fans、粉絲
      參加比賽 打比賽、參賽、出賽
      城市 地點、位置、地區、位于、落于
      球隊比賽 交手
      比賽 比賽、輪、次數、場

                         
      ⒊ 模塊的具體實現
       在對關鍵詞模式的轉換中,我們立足于對現有的關鍵詞進行合理的擴展,即對體現關系的關鍵詞進行合理的近義或者同義擴展,并對疑問詞的位置進行適當的調換,力爭全方位、多角度、合理化的轉換問題模式。轉換的關鍵是用網絡中使用頻率較高的詞語代替句子中原有的關系詞。例:CBA包括多少支球隊?初步劃分為:CBA+包括+球隊。“包括”一詞在網絡中出現的頻率遠遠低于“有”,所以,在問題模式轉換過程中,將“包括”替換為“有”,提交給網絡的模式即為:CBA+有+球隊。
       該模塊的代碼如下:
      輸入 string;
      Sqlstr=”select mainkey  from   biao1
       Where mainkey-type=
       (select mainkey-type
       From  biao2
       Where enlarge-text=’$string’ )”
      String=sqlstr
      輸出 string
       上述代碼的作用是:依次將問題理解模塊傳來的關鍵詞,依次與關鍵詞轉換表中的詞相匹配,有則返回主關鍵詞,和問題理解模塊分析出的實體詞一起提交給網絡,進行下一步的操作。
       這其中涉及到對關鍵詞的擴展表的查詢,借用了SQL server中查詢語句“select”,通過獲取問題分析傳來的關鍵詞,對照擴展表,進行查詢、轉換。
       其表結構如表3.3、表3.4所示:
                         表3.3 關鍵詞表
      字段名 數據類型
      Mainkey 文本
      Mainkey-type 數字
                        
                         表3.4 關鍵詞轉換表
      字段名 數據類型
      Enlarge-text 文本
      Mainkey-type 數字
       當然,此種轉換方式存在一定的局限性. 例如:含有“球隊+參加+比賽”,既可以問參加比賽的球隊數量,也可以用來問具體的哪些球隊。為了解決這一局限性,我們提出了常見問題知識庫的建立。
      3.2.3  常見問題知識庫的建立
       常見問題知識庫的建立是為了這樣的一個目的:直接給用戶一個簡介的答案。由于網絡信息的繁雜,及該系統的局限性等原因,對部分問題無法給出具體答案。我們覺得有必要建立這樣一個庫,一個立足于網絡的常見問題知識庫。即將用戶常見的、關心的問題,整理后存放入庫中。用戶點擊相關問題時,即可進入庫中,查看其答案。部分問題的答案因其篇幅等原因,暫時給出相關網站,用戶點擊問題后,在顯示相關網站的同時,觸發網絡連接,給用戶具體的網頁截取圖。
       在此庫中,我們將問題分為以下幾種類型:球員、球隊、比賽、其它。
       其表結構如表3.5所示:
                              表3.5 常見問題庫表
      字段名 數據類型
      question text
      answer text
      type text
                     
       此模塊運行界面如圖3.3所示:
       
                                       圖3.3 常見問題庫
      該模塊的建立代碼如下:
      Dim myconn As New ADODB.Connection
      Dim rs As New ADODB.Recordset
      strconn = "provider=microsoft.jet.oledb.3.51; data source=D:\wenjian\db5.mdb"
      Myconn.Open strconn
      sqlstr = "select * from question where type like'球員'"
      rs.Open sqlstr, myconn
      List1.Clear
      If Not rs.EOF Then
      While Not rs.EOF
      List1.AddItem "" & rs.Fields (1) & ""
      rs.MoveNext
      Wend
      End If
       根據上述代碼,可以將一些常見的問題依次分類的加入到庫中,用戶查看時可以根據自己的問題進行相關查詢。必要的時候,可以對該庫進行相應的修改。
       上述模塊及關系的劃分,在具體的實現過程中可能有些變動,各種實體之間存在的關系可能也不止一種,體現關系的關鍵詞也會與現實存在差異。我們做這個系統的,一是為了檢驗我們前面所提出的“基于知識庫的問答系統”是否合理,是否可以順利實現,另一方面也希望對研究問答系統的其它模型有稍許幫助。系統中存在的種種問題及不足,我們力求最小化;模塊的劃分及選擇,我們力求大眾化;答案的模式取舍,我們力求簡單化。
         實驗結果和分析
       實驗平臺要求
       Visual basic 6.0能夠運行的條件:Windows95、Windows NT或者更高的版本;Microsoft Windows95支持的cd-rom. Microsoft Windows95支持的VGA或分辨率更高的監視器; Windows 95/98下要求的24MB內存, Windows nt下要求32MB以上的內存[11] 。
       具體實驗
       實驗一:CBA有多少球隊?程序運行的界面如圖4.1所示:
       
                                    圖4.1 問題查詢
       類似的:CBA有多少支球隊?CBA有多少支參賽球隊?CBA有幾支球隊?等,系統均可以給出答案。
       實驗二:你知道有哪些球隊參加2005年CBA聯賽?對這樣的問題,系統暫時不能實現。程序運行界面如圖4.2所示:
       
                                     圖4.2 問題查詢
       結果分析
       該系統可以對簡單的問題進行回答并返回用戶所需要的答案,但答案的模式并不是最簡單;系統對用戶的問題模式的分析并不十全十美,有時還會出現歧義,返回的答案也就出現錯誤;由于漢語的多樣性、復雜性,系統并不能保障不會出現任何沖突,這也是此程序今后的研究方向。

        系統的不足與展望
       本系統涉及的是一個簡單的、基于限定領域的問答系統,對用戶提出的問題,根據已有的問題模式,分析用戶的問題,再根據語義網絡知識庫對問題進行轉換處理,然后根據具體問題的搜索策略在因特網上進行搜索,得到相關的文本信息,在答案抽取階段再根據答案抽取規則從文本信息中提取出準確的答案,返回給用戶。
       在設計及實驗過程中,我們發現了不足:本系統中的問題理解部分,采用的分詞方法是群舉法,人為定義規則的方法對句子進行簡單的劃分和理解,再匹配可能的關鍵詞,進行轉換,這種做法雖然設計上比較簡單,但會出現一些問題,比如:系統不能準確分詞,系統很難在語義的程度上理解用戶所提出的問題。這樣往往會造成許多沖突(一個問題,多個答案)。雖然本系統努力嘗試把已發現的沖突解決,但是并不能保證所有沖突都已不存在(很多還沒有發現),這樣隨著系統的數據庫擴大,這種沖突會不斷的被發現,造成不可避免的錯誤。
       這次我們的問答系統只是簡單的實驗,離理想的目標還很遠,但是我們相信,隨著網絡和信息技術的快速發展,中文自動問答系統不僅可用作智能搜索引擎,還可以用在遠程教育,企業客戶咨詢等方面。我們有理由相信:不久的將來問答系統將會取得重大的突破并且得到廣泛的應用。
       
        結束語
       經過近四個月的努力,我們的基于知識庫的問答系統的設計基本完成。在整個的設計過程中,我們參閱了大量的資料,參考了其他一些系統,進行了大量的分析和研究工作,掌握了不少知識和技術。通過這次設計,使我對Visual Basic 6.0有了更深的認識與掌握;對 Access數據庫有了進一步的了解;更重要的是讓我學會了分析問題、處理問題的能力。在這次設計中,我的實際操作能力也有了很大的提高。沒有實際的操作,對知識的掌握是不牢固的,只有在不斷的實踐中才能不斷的提高自己的個人素質,掌握更多的東西。
       畢業設計是一個學習過程,它既是我們大學四年所學知識的總結,又是促使我們發現新問題、探究更新更廣的領域的開始。
       就這次的畢業設計來講,我們做得還很不夠,到現在為止還是有很多的遺憾,只有通過今后繼續努力學習,來彌補今天的遺憾。
       四年大學的學習生活已接近尾聲,回顧這幾年的學習、工作與生活,盡管遇到過許多困難和壓力,但總的來說還是令人滿意的。在老師、同學們的幫助下和自己的努力下,學習上我感覺進步很大,勞動得到了收獲。這段時間的學習將使我受益終身,為我以后的學習和工作打下了良好的基礎,為自己的美好大學生活畫一個圓滿的句號!
            
                              參 考 文 獻
       [1]  崔桓,蔡東風,苗雪雷﹒基于網絡的中文問答系統及信息抽取算法研究﹒中文信息學報,2004,18(3):24~31
       [2]  關毅,王曉龍﹒面向專業網站的中文問答系統研究﹒哈爾濱工業大學學報,1999,5(3):12~19
       [3]  張剛 劉挺 鄭實福﹒開放域中文問答系統的研究與實現﹒見曹右琦編﹒中國中文信息學會二十周年學術會議,北京:清華大學出版社,2001,11~19
       [4]  王樹西 白碩 姜吉發﹒基于自由文本的模式推理﹒見吳立德編﹒第一屆全國信息檢索與內容安全學術會議,上海:復旦大學出版社,2004:349~354
       [5]  白碩﹒大規模內容計算﹒見孫茂松編﹒語言計算與基于內容的文本處理,北京:清華大學出版社,2003:16~24 
       [6]  王永慶﹒人工智能原理與方法﹒西安:西安交通大學出版社,1999﹒297~350
       [7]  王曉龍﹒自然語言處理的若干問題研究﹒哈爾濱工業大學學報,2001,7(1):29~35
       [8]  王睿 姚天昉﹒基于實體語義關系的中文問題-答案關系研究﹒見吳立德編﹒第一屆全國信息檢索與內容安全學術會議,上海:復旦大學出版社,2004:252~259
       [9]  董振東,董強﹒關于知網-中文信息結構庫﹒http://www.keenage.com,2000-10-05
       [10] 張宇 劉挺 文勖﹒基于改進貝葉斯模型的問題分類﹒見吳立德編﹒第一屆全國信息檢索與內容安全學術會議,上海:復旦大學出版社,2004:236~242
       [11] 潘宇斌,陳躍新﹒基于Ontology的自然語言理解﹒計算機技術與自動化,2003,22(4):71~74
       [12] 馬秀峰﹒Visual Basic程序設計教程﹒山東:濟南山東大學出版社,2000﹒30~50
      [13] 嚴蔚敏 吳偉民﹒數據結構﹒北京:清華大學出版社,1991﹒118~150
      [14] 王珊 陳紅﹒數據庫原理教程﹒北京:清華大學出版社,1997﹒35~103
       [15] 李鑫,杜永萍﹒基于句法信息和語義信息的問題分類﹒見吳立德編﹒第一屆全國信息檢索與內容安全學術會議,上海:復旦大學出版社,2004:243~251
       [16] 陳康 武港山﹒基于Ontology的信息檢索技術研究. 見吳立德編﹒第一屆全國信息檢索與內容安全學術會議,上海:復旦大學出版社,2004:99~105

        致  謝
       首先,我向四年來辛勤培養、教育、關心幫助我的老師們表示最誠摯的敬意和感謝。向認真傳授給我知識的,孜孜不倦的對我教導的所有老師表示感謝,他們的教誨將使我受益終身。
       感謝其他所有給予我支持的人。在此再次表示衷心的感謝!

      首頁 上一頁 1 2 3 4 下一頁 尾頁 4/4/4


      相關論文
      上一篇:繩帶在服裝設計中的應用——百變.. 下一篇:中國姓名和地名自動識別系統的研究
      Tags:基于 知識庫 的的 問答 系統 研究 【收藏】 【返回頂部】
      人力資源論文
      金融論文
      會計論文
      財務論文
      法律論文
      物流論文
      工商管理論文
      其他論文
      保險學免費論文
      財政學免費論文
      工程管理免費論文
      經濟學免費論文
      市場營銷免費論文
      投資學免費論文
      信息管理免費論文
      行政管理免費論文
      財務會計論文格式
      數學教育論文格式
      數學與應用數學論文
      物流論文格式范文
      財務管理論文格式
      營銷論文格式范文
      人力資源論文格式
      電子商務畢業論文
      法律專業畢業論文
      工商管理畢業論文
      漢語言文學論文
      計算機畢業論文
      教育管理畢業論文
      現代教育技術論文
      小學教育畢業論文
      心理學畢業論文
      學前教育畢業論文
      中文系文學論文
      最新文章
      熱門文章
      計算機論文
      推薦文章

      本站部分文章來自網絡,如發現侵犯了您的權益,請聯系指出,本站及時確認刪除 E-mail:349991040@qq.com

      論文格式網(www.donglienglish.cn--論文格式網拼音首字母組合)提供其他論文畢業論文格式,論文格式范文,畢業論文范文

      Copyright@ 2010-2018 LWGSW.com 論文格式網 版權所有

      感谢您访问我们的网站,您可能还对以下资源感兴趣:

      论文格式网:毕业论文格式范文