3 系統的設計 3.1 系統功能模塊 3.1.1 資源建立模塊 (該模塊有本人負責設計完成,后面將有詳細介紹) 內容:對大規模的已標注的中文語料進行數據統計,包括統計頻率值、頻數值等,完成對600萬中文語料的數據統計的算法,并建立中國人名、中國地名和中文成詞等中文信息的數據資源庫。 功能:為人名和地名的識別提供依據,是人名和地名識別兩個功能模塊實現的根本所在。對一段文字或文章進行切分和人名地名識別時,首先要連接本人設計的數據資源庫進行掃描匹配來實現對潛在的姓氏、人名和地名的識別,以及頻率的比較和詞性的標注。 實現:打開數據資源庫,可詳細查詢各種數據資源。 3.1.2 人名識別和語句的切分模塊 【a】 內容:完成人名識別、語句切分的算法以及界面 功能:通過連接和掃描已建立好的數據資源庫,完成匹配工作,來實現對真實中文文本進行中國人名地名的識別、語句的切分及詞性的標注。 實現:打開人名分析界面,輸入一段文字或文章,即可進行語句切分,人名的識別,并顯示出來,包括顯示人名、顯示分詞和顯示頻率。 3.1.3 地名識別和機器學習模塊 【a】 內容:完成地名識別的算法及界面和機器學習的算法。 【b】 功能:通過連接和掃描已建立好的數據資源庫,完成匹配工作,來實現中國地名的識別,并對識別過程中出現的錯誤進行學習和修正。 實現:打開地名分析界面,輸入一段文字或文章,即可進行地名的識別,并將地名顯示出來。 3.2 本人負責模塊的詳細介紹 本人負責的是該設計的第一個模塊,即資源建立模塊。 資源建立模塊是人名、地名識別和語句切分的根本,人名、地名識別和語句的切分都必須以此為基礎來完成各自功能,所以資源的建立是該設計的首重部分。 數據資源庫包括中文成詞庫、中國姓氏庫、中國特殊人名庫、中國地名庫、中文詞性庫、中文標點符號庫以及詞庫中每一個詞語的頻率統計。本人通過對有限的600萬中文新聞語料(863北大語料、山西大學語料)進行統計與分析,通過計算機程序設計技術制作了一個數據資源庫,如圖3.1所示: 圖3.1 數據資源庫 這個數據資源庫中又包含了以下六個資源庫: 【a】 中文成詞庫 我們分析并統計出了這600萬語料中的所有的詞語(這些詞語中就包含了人名、各類動詞、形容詞、介詞、量詞、嘆詞等等),將這些所有詞語統計入庫,我們稱之為中文成詞庫,我們還計算出了每一個詞語它在語料中出現的頻率,這個頻率的計算方法是這樣的:詞語X的頻率P(X) = X在所有詞語中出現的次數 n / 詞表中所有詞的個數 m 。同時我們還統計出了所有詞語的詞性。每一個詞語的頻率、詞性都列入詞庫中。如圖3.2所示: 圖3.2 中文成詞庫 【b】 中國特殊人名庫 這個特殊人名庫中不僅包括了從600萬語料中統計出的所有中國特殊人名,還加入了許多歷史名人和當代政界、體育、文化和科技各類名人,以及一些可作為潛在識別姓名的人名。這個庫我們稱之為特殊人名庫。如圖3.3所示: 圖3.3 中國特殊人名庫
【c】 中國姓氏庫 此姓氏庫中不僅包括從600萬語料中統計出的所有中國姓氏,還加入了語料中所沒有出現過的中國姓氏,包括復姓在內,共計636個中國姓氏。這個資源庫我們稱之為中國姓氏庫。如圖3.4所示:
圖3.4 中國姓氏庫 【d】 詞性庫 此庫中包含了現代中文常用的所有詞性,并且每一種詞性都有特殊的標記符號。如圖3.5所示: 圖3.5 詞性庫 【e】 標點符號庫 此庫中包含了中文常用的標點符號。如圖3.6所示: 圖3.6 標點符號庫
【f】 中國地名庫 我們通過大量的收集,再經過整理分析,共統計出了88026個中國地名,其中不同名字的地名共70449個。如圖3.7所示: 圖3.7 中國地名庫 由于所統計和分析的資源規模十分龐大,所以不可能通過手動添加數據來完成,本人所完成的這個人名、地名、中文成詞等中文信息數據資源庫是通過計算機程序設計來實現的。圖3.8為實現建立人名、地名和中文成詞等中文信息數據資源庫的界面。
圖3.8 資源建立界面 4 系統的實現及試驗結果分析 4.1 系統的要求 【a】 中國人名和地名自動識別的實驗系統將在Windows平臺下,運用VB6.0環境采用面向對象的技術開發,應當可以很方便地進行擴充修改及作為一個控件嵌入其他系統中。 【b】 系統目標:從文本文件中按標點符號等指定的斷句符號為標記得到一定數量的句子,通過此系統處理后,輸出帶有識別結果信息的句子。輸出信息有: 人名標記 地名標記 每一個詞語后面標注有該詞的詞性 【c】 系統所需環境: 系統具體的軟硬件配置如下: 操作系統:WINDOWS98/2000/XP CPU:INTEL PENTIUM 266 或更高 硬盤:100M 或更高 顯示器:VGA 800*600分辨率 內存:32M 或更高 系統開發軟件:Visual Basic 6.0 4.2 識別過程試例 4.2.1 人名識別試例 例1:周孜正在做畢業設計 分詞后:周孜name / 正在d / 做vt / 畢業n / 設計n 識別人名:周孜name 對于中國人名的自動識別,系統首先掃描數據資源庫中的人名表,看是否有潛在姓名匹配,如果有的話就直接將人名識別出來,如果沒有可匹配的潛在姓名,則再掃描數據資源庫中的姓氏表,看是否有可匹配的姓氏,如果有的話就將該姓氏先切分出來,再根據該姓氏上下文信息及人名識別的一些規則判斷該姓氏后的一個或兩個字是否能和之前切分出來的姓氏組成一個中國人名。 系統在掃描數據資源庫進行潛在人名的匹配工作時,也在進行一般詞語的匹配工作,因為系統也會同時掃描數據資源庫中的詞語表和詞性表,這樣就可將一句話中的每個詞語切分開來,并對每個詞進行詞性標注。 通常來說還有可能遇到兩個潛在姓氏的重疊的情況,遇到這種情況就要對兩個姓氏進行頻率的比較,系統通過掃描數據資源庫的姓氏表,參照比較二者的頻率大小,頻率大的那個姓氏系統就自動識別它為這個名字的姓氏。 例如:他們都是陳金仁教授的學生 這其中“陳金仁”可以是人名,“金仁”也可以是人名,通過比較“陳”、“金”二者作為姓氏的頻率的大小,判斷出“陳”是該人名的姓氏,從而也就識別出人名“陳金仁”。 4.2.2 地名識別試例 例1:上海是美麗的國際大都市 分詞后:上海ns / 是vl / 美麗的a / 國際a / 大都市n 識別地名:上海ns 對于中國地名的自動識別,系統首先掃描數據資源庫中的中國地名表,看庫中是否有地名匹配,如果有的話就直接識別出來,如果沒有可匹配的地名,在根據地名識別的規則進行判斷。 4.3 實驗結果及討論 從實驗結果來看,我們所設計的這個系統基本上能滿足真實文本的人名和地名識別需要,但由于一方面我們的能力有限,另一方面語料資源的不足,所以導致該系統在對真實文本進行人名和地名識別時,難免出現一些紕漏和錯誤,以下是一些我們的錯誤總結: 中國人名識別的錯誤主要集中在以下幾個方面: 1.與地名、音譯名、機構名發生沖突 例:一輛由漢口開往/武昌方/向的公交電車 伊拉克副總統拉/馬丹/1 5日在這里說 /柯達/這個品牌是在1 8 8 8年問世并注冊的 2.與常用字、詞發生沖突 例:/村里/二話沒說,同市教育局協商 以主席/曾鈺/成為團長的香港民主建港聯盟 上午張三走,下午/李四來/ 中央決定陳毅仍/任華野/司令員兼政治委員 王志/飛去了教室 中國姓名識別只是整個分詞系統的一個組成部分,應該與其他未登錄詞識別方法集成起來,并且借助句法標注和語義分析等更深層的分析技術,才能取得理想的識別效果。 中國地名識別的錯誤主要集中在以下幾個方面: 1.一些地名用字同時也是標識地名存在的邊界詞,會對地名識別產生一定的負面影響。與左邊界詞有關的有“來復鄉”“在條港”“到塘鄉”等,與右邊界詞有關的有“鎮平鄉”、“臨江市”等。 3.未識別地名簡稱導致的錯誤。如“向臺、港、澳同胞祝賀新年好”、“王平同志在晉/察/冀軍區工作時”。 4.將機構名、人名誤識別為地名。如“廣州珠江鋼琴企業集團”、“鄧云鄉的《春雨青燈漫錄》”。 5.有關地名的歧義沖突。 (1) 連續出現的地名本身發生沖突,如:“在黑龍江省五常市民樂鄉”,“一份沉重的調查報告悄然擺上海南省直機關領導干部的案頭” (2) 因地名的首字或尾字與其相鄰字成詞,與普通詞發生歧義沖突,如“李冰父子創建都江堰”,“土生土長的澳門人”。 為此,隨著地名樣本集的擴大和地名識別算法的調整,地名識別的召回率和準確率還可以進一步提高。
5 結束語 本篇論文研究了中國人名和地名識別技術,由于象中國人名和地名這樣的未登錄詞的自動識別是一個重要而又復雜的問題,加之我們的能力有限,所以我們所設計的這個系統也只是一個實驗設計,離實用還有一段不小的距離。但是通過這次畢業設計使自己在VB 6.0開發工具和計算機算法設計方面得到了實踐鍛煉以及知識的綜合提高,熟悉了當前中國人名和地名識別的現狀以及相關技術,我必將在今后的學習和工作中繼續努力,使自己掌握的知識能更好地融入到實際工作中去,為社會發展做出貢獻。 在本系統開發結束之余,綜觀其功能與實現,仍有許多遺憾之處,例如:真實語料規模不夠大,造成我們所建立的前期資源中詞語庫、姓氏姓名庫、地名庫等的覆蓋面不夠廣,這樣會影響到人名和地名識別的準確率。這些希望在以后的學習或研究工作中去進一步完善。 在此,對為組織此次畢業設計做了許多工作的老師們,表示衷心的感謝! 對本論文提出了許多指導性的意見和建議的人,在此表示深切地感謝!
參 考 文 獻 [1] 劉開瑛﹒中文文本自動分詞和標注﹒北京:商務印書館,2000﹒20 [2] 劉開瑛 郭炳炎﹒自然語言處理﹒北京:科學出版社,1991﹒1 [3] 孫茂松,黃昌寧,高海燕等﹒中文姓名的自動識別﹒中文信息學報,1995,9(2):16~27 [4] 沈達陽 孫茂松 黃昌寧﹒ 局部統計在漢語未登錄詞識別中應用和實現方法﹒見陳力為,袁琦編﹒語言工程,北京:清華大學出版社,1997:127~132 [5] 鄭家恒 譚紅葉﹒基于變換的中文姓名識別技術探討﹒見黃昌寧編﹒中文信息信息學會會議論文集,北京:清華大學出版社,1998:201~210 [6] 黃昌寧﹒中文信息處理中的分詞問題﹒語言文字應用,1997,1:7~13 [7] 劉秉偉,吳立德﹒基于統計方法的中文姓名識別﹒中文信息學報,2000,14(3) :45~52 [8] 黃德根,岳廣玲,楊元生﹒基于統計的中文地名識別﹒中文信息學報,2003,17(2) :15~23 [9] 黃昌寧 李涓子﹒語料庫﹒北京:商務印書館,2002﹒154 [10] 鄭家恒 劉開瑛﹒自動分詞系統中姓氏人名的處理策略探討﹒見陳力為編﹒計算語言研究與應用,北京:北京語言學院出版社,1993:89~95 [11] 宋柔 朱宏﹒基于語料庫和規則庫的人名識別法﹒見陳力為編﹒計算語言研究與應用,北京:北京語言學院出版社,1993:111~118 [12] 張民,李生﹒基于規則并舉的漢語詞性自動標注算法﹒軟件學報,1998,9(2) :95~103 [13] 陳小荷﹒現代漢語自動分析﹒中文信息學報,2000,14(3):6~14 [14] 沈達陽﹒基于統計和規則的漢語真實文本自動分詞和詞性標注系統的研究和實現﹒碩士學位論文﹒北京:清華大學,1996 [15] 譚紅葉 鄭家恒 劉開瑛﹒中國人名、地名的自動識別研究﹒見黃昌寧編﹒計算語言學文集,北京:清華大學出版社,1999:123~130 [16] 陳小荷﹒自動分詞中未登錄詞問題的一攬子解決方案﹒語言文字應用,1999,3:15~22 致 謝 首先,我向四年來辛勤培養、教育、關心幫助我的老師們表示最誠摯的敬意和感謝。 感謝我的指導老師宋禮鵬在畢業設計上的悉心指導,本文從搜集資料,撰寫到定稿都得到了他的精心指導和幫助,值此論文交稿之際,謹向宋老師表示最衷心的感謝!! 感謝我的所有任課老師和領導,在這四年的學習和生活中給了我很大的幫助在畢業設計中用到的許多知識都是他們講述的,在此表示最衷心的感謝。 最后再次感謝所有曾經幫助過我的人和仍在幫助我的朋友。
首頁 上一頁 1 2 3 4 下一頁 尾頁 4/4/4
本站部分文章來自網絡,如發現侵犯了您的權益,請聯系指出,本站及時確認刪除 E-mail:349991040@qq.com
論文格式網(www.donglienglish.cn--論文格式網拼音首字母組合)提供其他論文畢業論文格式,論文格式范文,畢業論文范文