中國姓名和地名自動識別系統(tǒng)的研究 1 引言 1.1 人名、地名識別研究的意義 未登錄詞是指在文本處理中遇到的由于詞表未收錄因而機器不認識的詞匯,主要包括兩部分:一是專有名詞,它包括中國姓名、中國地名、譯名、機構(gòu)組織名等等;二是縮略語、派生詞及不斷發(fā)展和約定俗成的一些新詞語等,如與Internet相關(guān)的“網(wǎng)頁、互聯(lián)網(wǎng)、藍牙技術(shù)”等等。 首先,在中文信息處理應(yīng)用系統(tǒng)中,詞表應(yīng)當有一定的規(guī)模,但不能無限擴大,即詞是不可能窮盡登錄的,人名和地名幾乎可以看成是無限的,新詞語也在不斷產(chǎn)生,因而未登錄詞總是客觀存在的,關(guān)鍵是漢語語言處理系統(tǒng)要具有未登錄詞識別的能力。 其次,目前自然語言處理領(lǐng)域的處理對象是大規(guī)模真實文本,而不僅僅是少量的詞條和典型的句子。大規(guī)模真實文本中涉及到的未登錄詞面廣大,要處理此類文本就不能回避未登錄詞的識別問題。 再者,據(jù)統(tǒng)計,未登錄詞在中文新聞?wù)Z料中占文本總詞數(shù)的10%左右。其中,中文姓名占未登錄詞中15%左右。在自然語言處理領(lǐng)域中,許多方面的工作也都離不開中文姓名和地名的自動識別。譬如人們在檢索某些材料時,往往需要從查詢姓名和地名入手。這就需要從文本中把人名和地名辨別出來,提供檢索入口,而在機器翻譯系統(tǒng)中,人名和地名也必須采用與其他詞語不同的特殊規(guī)則來處理。 中國姓名和地名的識別技術(shù)是中文信息處理的基礎(chǔ)研究領(lǐng)域,是中文信息處理中的一個難點,也是中文文本自動分詞的難點之一。由于中國姓名數(shù)量多,且隨時間的改變而不斷增加和刪除,因而不可能創(chuàng)建一部收錄全部中國姓名的人名庫或人名詞典,只能通過技術(shù)手段來實現(xiàn)中國姓名的識別,與此同時,單一的匹配地名庫的地名識別方法也缺乏足夠的靈活性和識別能力,同樣需要更具有技術(shù)性的方法來實現(xiàn)地名的識別,所以,中國姓名和地名識別技術(shù)的突破將對提高漢語自動分詞的準確性具有重要的意義[1]。 漢語的自身特點使得中文信息自動處理大多是先對要處理的文本進行自動分詞(加入顯式分割符) , 然后再在分詞的基礎(chǔ)上進行詞法、語法、語義等方面的深入分析。而在分詞階段, 文本中的人名、地名以及其它專有名詞和生詞大多被切分成單字詞, 在這種情形下如不能很好地解決漢語文本中專有名詞生詞的識別問題, 將給其后的漢語文本的深入分析帶來難以逾越的障礙。中國姓名和地名的自動識別問題就是在這種背景下提出來的。在中文文本的自動分詞處理中,未被識別的中國姓名和地名是造成分詞錯誤的原因之一。由上述內(nèi)容可見,中國人名和地名的識別技術(shù)意義之重大[2]。 1.2 中國人名識別的難點 1、同西方拼音文字相比,漢語文本中姓名沒有首字母大寫作為識別標志。 2、姓名數(shù)量多,且隨時間的改變新增和刪除,除少數(shù)著名人物的姓名可以收錄到中文信息處理系統(tǒng)用的詞典之外,絕大部分姓名需要專門識別。 3、姓名類型多樣。如:【a】 復(fù)姓全稱人名。例如:司馬光,諸葛亮 【b】 單姓全稱人名。例如:張艷麗 【c】 名字簡稱 。例如:(周)恩來同志 【d】 姓氏簡稱。例如:老葉,小王,郭老 【e】 筆名。例如:冰心,啟功 【f】 乳名。例如:阿春,小福子 【g】 綽號。例如:南霸天 4、真實語料中姓名出現(xiàn)形式多樣。如:【a】 前后帶稱謂詞的人名。例如:作家蘇童,書記馬于明同志,楊尚昆主席 【b】 帶有指界動詞的人名。例如:冷藏廠廠長王港說 【c】 不帶有稱謂指界詞的姓名。例如:我不記得怎樣被網(wǎng)海鳴碰了一下 【d】 嵌在某些固定模式中的人名。例如:剛卸任的石方禹 【e】 連續(xù)人名。例如:江澤民李鵬喬石朱鎔基胡錦濤曹剛川薄熙來等黨和國家領(lǐng)導(dǎo)人 5、真實語料中姓名結(jié)構(gòu)復(fù)雜。如:【a】 姓名成詞。例如:第二次握手的作者張揚,電影演員寧靜 【b】 姓氏成詞的人名。例如:黃河燕,黎明生,有關(guān)于小彤的工作問題 【c】 名字自身成詞的人名。例如:著名導(dǎo)演徐松子,后坡村農(nóng)民張石頭,工人張解放 【d】 姓名與相鄰字成詞。如:齊遠生意識到,韓忠心地善良[3]。 1.3 中國地名識別的難點 中國地名的識別與中國姓名相比,情況也是很復(fù)雜的,具體表現(xiàn)為以下幾點: 中國地名用字比較分散。據(jù)報道,從《中華人民共和國地名錄》中的9萬條地名和280萬新聞?wù)Z料中的地名共統(tǒng)計得到3685個地名用字,其中可作地名首字的有2916個,可作地名中間字的有2978個,可作地名尾字的有1181個,尾字表現(xiàn)出了比首字和中間字都要高的集中性。 中國地名長度沒有一定的限制,最短的有“京”、“滬”,只有一個字比較長的有“雙江拉估族布朗族傣族自治縣”,共13個字。 可作單字的漢字在地名中經(jīng)常出現(xiàn),如“西直門”、“馬家塔”中的每個字都是高頻單字詞。 地名中可含有多字詞,如“黃/果/樹/瀑布、葫蘆/島、紅領(lǐng)巾/路”。在1998年度的863自然語言接口評測中,關(guān)于中國地名的自動識別準確率為69.10%,召回率為60.47%[4]。 1.4 中國姓名和地名自動識別研究的現(xiàn)狀與分析 國內(nèi)外對專有名詞的識別都做了一定的研究。西方語言處理專有名詞,雖也有確定專有名詞邊界的問題,但需要解決的主要問題的是如何從上下文推斷其詞性的問題。通常的方法是利用詞典和大規(guī)模語料庫中統(tǒng)計得到的詞頻、詞綴等統(tǒng)計信息,輔以句法分析,對首字母大寫的詞串進行形態(tài)分析,再結(jié)合構(gòu)詞法、前后綴形態(tài)與一定的上下文信息、語義信息確定一個大寫字母開頭的詞或詞串是否是專有名詞,是什么類別的專有名詞。如,可以通過稱謂姓氏(Mrs. Smith)來確定一個大寫字母開頭詞是姓名。從來自于美國國防部舉行的第6屆MIS會議上的一些統(tǒng)計數(shù)據(jù)來看,即使是識別西方語言中具有形態(tài)特征的專有名詞,其識別率也僅能夠達到85%左右。而要自動識別中文文本中中不具有形態(tài)特征的專有名詞,難度更大。 由于漢語是非形態(tài)語言,在文本中沒有詞的間隔標記,詞類和語法成分的對應(yīng)關(guān)系十分復(fù)雜,因而漢語專名識別中不可能使用句法分析和詞形變化作為專名識別的手段。目前采用的技術(shù)路線有兩類,一類方法整體解決方案,它是在確定要處理的語料庫的情況下,直接用統(tǒng)計方法從語料庫獲取詞匯,在經(jīng)過后處理階段,通過從詞的上下文和用字,確定專有名詞的類別。另一種方法是個別解決方案,集中于某一類專有名詞的辨識,通過收集大量的某類專有名詞信息,建立語料庫,從中發(fā)現(xiàn)專有名詞用字的統(tǒng)計規(guī)律,再利用統(tǒng)計規(guī)律來辨識任意句子中的專名。其中對于中國人名的研究已經(jīng)有文獻見諸報導(dǎo)”。多數(shù)采用的是后一種方法,首先根據(jù)大規(guī)模人名庫或真實語料,對其中的姓名樣本進行統(tǒng)計,產(chǎn)生姓氏和名字用字頻率表,提取規(guī)則,然后將此統(tǒng)計信息和規(guī)則應(yīng)用于中文姓名的辨識。辨識時是在初步分詞的基礎(chǔ)上,查找分詞結(jié)果中某個單字是否是單姓,雙字詞是否是復(fù)姓;如果是姓氏,則此單字與其后的一個或兩個可用作名字的漢字構(gòu)成潛在姓名,通過計算每個潛在姓名的概率估值,以中文姓名的概率信息作為主要依據(jù),使用給定的閾值進行概率篩選。結(jié)合稱謂詞、指界詞等相關(guān)信息進行識別。清華大學(xué)、國立臺灣大學(xué)對中文姓名的識別作了比較詳細的研究,提出了各自的概率模型和識別算法。目前的中文姓名識別方法存在的主要問題是: 由于是在分詞碎片(初步分詞后形成的若干個連續(xù)單字)的基礎(chǔ)上進行姓名識別,對姓名成詞和姓氏成詞的情況識別效果不好。 【b】 僅利用姓名語料庫靜態(tài)的來統(tǒng)計姓氏、名字用字的頻率,確定姓名的篩選閾值.造成了姓名識別時不能同時保證有較高的召回率和準確率。 【c】 在確定姓名的閾值時,使用的姓名語料庫的代表性不強。并且沒有考慮不同姓氏的差異。 對簡稱的識別幾乎沒有涉及。 中國地名就其內(nèi)部構(gòu)成上來看,要比中國人名復(fù)雜一些。人名中都帶有一個姓,而且能夠做姓的字詞大部分都是以做姓為主的,基本上是比較確定的。地名有時候也有一個結(jié)束標志,但是這個標志很容易同其它字詞構(gòu)成別的詞條,所以不太確定,而且有時候這個標志根本就不出現(xiàn)。但是,漢族地名在大規(guī)模真實文本中出現(xiàn)的基本上是縣級及其以上的地名,動態(tài)出現(xiàn)的非常少,所以,在地名動態(tài)識別過程中,我們可以將縣級及其以上的地名都收錄到靜態(tài)的詞表中,就基本上解決了絕大部分漢族地名識別的問題。然后再對極少數(shù)地名做動態(tài)識別[5] [6]。 針對上述問題,本文依照統(tǒng)計、規(guī)則及結(jié)合性技術(shù)相結(jié)合的策略,以國內(nèi)最有權(quán)威性的工具書《姓氏人名用字分析統(tǒng)計》和北京大學(xué)山西大學(xué)的真實文本語料為數(shù)據(jù)統(tǒng)計基礎(chǔ),利用統(tǒng)計總結(jié)出的中國人名的姓氏和名字用字用詞的相關(guān)信息、地名用字的相關(guān)信息,以及人名地名構(gòu)成的相關(guān)規(guī)則,提出了在不作分詞和標注處理的原始文本中進行中國姓名和地名識別的方法,并設(shè)計實現(xiàn)了一個中國人名和地名自動識別的實驗系統(tǒng)。
2 人名、地名識別的相關(guān)資源和技術(shù)概述 現(xiàn)有的判斷識別中國人名和地名的方法主要有三種:基于統(tǒng)計的方法、基于規(guī)則和基于結(jié)合性的方法。 2.1 人名識別的相關(guān)資源 2.1.1 基于統(tǒng)計的人名識別方法中的相關(guān)資源 基本思想就是對大規(guī)模中文姓名庫進行統(tǒng)計,算出每個姓氏用字的概率、每個名字用字的概率,對每個可能姓名計算其概率值,并設(shè)定一個閥值,大于這個閥值就斷定為姓名,小于這個閥值就不為姓名。一個簡單的模型:令name代表一個可能成為姓名的字串,name=W 1,W2, W3,其中W1, W2和W3為組成該字串的單字。P (name)為name字串成為中文姓名的概率,p (W i)為單字W i作為中文姓名用字出現(xiàn)的概率,則:P (name)= p(W1) p (W2) p (W3),當P (name)大于某個閥值時就判斷name為確定姓名,否則不是。復(fù)雜的系統(tǒng)會根據(jù)不同邊界取不同閥值,進行判斷[7] [8]。 目前關(guān)于基于統(tǒng)計的人名識別有以下一些數(shù)據(jù)資源和和統(tǒng)計分析: ● 姓氏用字和名字用字 有關(guān)現(xiàn)行中國姓名用字分布的調(diào)查,已有多個報告,雖然取材不同、但結(jié)論相近或一致。其中國家語委主持和山西大學(xué)參與計算統(tǒng)計合作完成的《姓氏人名用字分析統(tǒng)計》,它是根據(jù)1982年人口普查資料,從北京、上海、遼寧、陜西、四川、廣東和福建等七個省市,各抽出2 5萬人名。總計174900個姓名中統(tǒng)計了姓氏用字和名字用字頻度。因此該工具書所涉及到的姓氏語料覆蓋面廣、代表性強,比較合理、科學(xué)。根據(jù)《姓氏人名用字分析統(tǒng)計》,得到[9]: (1)姓氏用字頻率表 在中國使用的737個姓氏中,單姓729個,復(fù)姓8個,姓氏用字739個。由姓氏用字表反映的特點是:姓氏雖多,但使用集中在少數(shù)大姓上,“王、陳、李、趙、劉”這五個大姓占姓名總數(shù)的3 2%,前114個姓占9 0%,前365個姓占99%。姓氏使用出現(xiàn)次數(shù)在10次以上的有379個,約占頻率為99.085%:剩下的為出現(xiàn)次數(shù)在lO次以下的,有350個,只占單姓姓氏額度總數(shù)的O.643%,其中僅出現(xiàn)一次的有143個,共占頻度總數(shù)的0.144%。 此外,復(fù)姓只有8個即:歐陽、司徒、劉付、皇甫、長孫、相里、諸葛、,總共99人次,僅占總?cè)藬?shù)的0 .058%(括號內(nèi)為出現(xiàn)次數(shù))。表2.1為前100個高頻次單姓及其累計頻度表。 表2.1 前100個高頻次單姓氏及其累計頻度表 排序號 形式序列 累計頻率 1-5 王、陳、李、張、劉 32.00% 6-15 楊、黃、吳、杜、周、葉、趙、呂、徐、孫 50.80% 16-65 朱、高、馬、粱、郭、何、鄭、胡、蔡、 曾、余、沈、謝、唐、許、羅、袁、馮、宋、蘇、曹、陸、董、于、韓、任、蔣、顧、鐘、方、杜、丁、姚、姜、譚、邱、肖、金、賈、田、崔、程、余、魏、藏、范、鄧、麥、潘、薛 80.36% 66-100 盧、洪、侯、夏、白、賀、錢、莊、鄒、 汪、史、石、彭、襲、秦、廖、黎、施、付、賴、江、邵、邢、倪、閏、嚴、常、康、牛、萬、陶、盂、葛、路、毛 88.01% (2)名字用字頻率表 人名用字情況復(fù)雜,雖多數(shù)是常用字,但也經(jīng)常出現(xiàn)一些生僻字、不用的古字、方言字、新造字等。人名用字雖多(共3345個),但使用也相對集中。表2.2列出了前71個名字用字表,表2.3、表2.4和表2.5分別列出了單名用字、人名首字用字和人名尾字用字頻率最高的前十個字。 表2.2 頻率最高的部分名字用字及累計頻度表 排序號 人名用字 累計頻度 1-6 英、華、玉、秀、明、珍 lO.350% 7-71 文、芳、蘭、國、麗、桂、榮、淑、德、春、金、建、志、風(fēng)、云、請、水、林、平、紅、寶、紊、成、福、美、梅、海、軍、小、玲、惠、亞、生、偉、興、忠、琴、新、霞、祥、慶、燕、萍、艷、洪、敏、芬、光、娟、花、強、妹、瓊、東、月、曉、利、瑞、振、元、責(zé)、學(xué)、世、輝、杰 50.17% 表2.3 單字名用字頻率最高的前十個字 頻率序號 單字姓用 占總數(shù)百分比(%) 累計百分比(%)
首頁 上一頁 1 2 3 4 下一頁 尾頁 1/4/4
本站部分文章來自網(wǎng)絡(luò),如發(fā)現(xiàn)侵犯了您的權(quán)益,請聯(lián)系指出,本站及時確認刪除 E-mail:349991040@qq.com
論文格式網(wǎng)(www.donglienglish.cn--論文格式網(wǎng)拼音首字母組合)提供其他論文畢業(yè)論文格式,論文格式范文,畢業(yè)論文范文