論文格式
      電氣工程 會(huì)計(jì)論文 金融論文 國(guó)際貿(mào)易 財(cái)務(wù)管理 人力資源 輕化工程 德語(yǔ)論文 工程管理 文化產(chǎn)業(yè)管理 信息計(jì)算科學(xué) 電氣自動(dòng)化 歷史論文
      機(jī)械設(shè)計(jì) 電子通信 英語(yǔ)論文 物流論文 電子商務(wù) 法律論文 工商管理 旅游管理 市場(chǎng)營(yíng)銷 電視制片管理 材料科學(xué)工程 漢語(yǔ)言文學(xué) 免費(fèi)獲取
      制藥工程 生物工程 包裝工程 模具設(shè)計(jì) 測(cè)控專業(yè) 工業(yè)工程 教育管理 行政管理 應(yīng)用物理 電子信息工程 服裝設(shè)計(jì)工程 教育技術(shù)學(xué) 論文降重
      通信工程 電子機(jī)電 印刷工程 土木工程 交通工程 食品科學(xué) 藝術(shù)設(shè)計(jì) 新聞專業(yè) 信息管理 給水排水工程 化學(xué)工程工藝 推廣賺積分 付款方式
      • 首頁(yè) |
      • 畢業(yè)論文 |
      • 論文格式 |
      • 個(gè)人簡(jiǎn)歷 |
      • 工作總結(jié) |
      • 入黨申請(qǐng)書(shū) |
      • 求職信 |
      • 入團(tuán)申請(qǐng)書(shū) |
      • 工作計(jì)劃 |
      • 免費(fèi)論文 |
      • 現(xiàn)成論文 |
      • 論文同學(xué)網(wǎng) |
      搜索 高級(jí)搜索

      當(dāng)前位置:論文格式網(wǎng) -> 免費(fèi)論文 -> 其他論文

      中國(guó)姓名和地名自動(dòng)識(shí)別系統(tǒng)的研究(二)

      本論文在其他論文欄目,由論文格式網(wǎng)整理,轉(zhuǎn)載請(qǐng)注明來(lái)源www.donglienglish.cn,更多論文,請(qǐng)點(diǎn)論文格式范文查看
      1 軍 1.6327 1.6327
      2 偉 1.3592 2.9919
      3 靜 1.3281 4.32
      4 紅 1.1702 5.4902
      5 明 1.1533 6.6435
      6 濤 1.0321 7.6756
      7 穎 0.9587 8.6343
      8 平 0.9559 9.5902
      9 磊 0.8939 10.4841
      10 杰 0.8882 11.3723
      表2.4 人名首字用字頻率最高的前十個(gè)字
      頻率序號(hào) 人名首字用字 占總數(shù)百分比(%) 累計(jì)百分比(%)
      1 淑 2.2807 2.2807
      2 玉 2.2532 4.5339
      3 秀 2.0755 6.6094
      4 曉 1.9042 8.5136
      5 文 1.7499 10.2635
      6 建 1.6627 11.9262
      7 志 1.3758 13.302
      8 刁 1.2733 14.5753
      9 桂 1.186 15.7613
      10 春 0.9929 16.7542
      表2.5 人名尾字用字頻率最高的前十個(gè)字
      頻率序號(hào) 人名尾字用字 占總數(shù)百分比(%) 累計(jì)百分比(%)
      1 華 3.6632 3.6632
      2 英 3.388 7.0512
      3 蘭 2.108 9.1592
      4 平 1.9233 11.0825
      5 珍 1.843 12.9255
      6 明 1.6741 14.5996
      7 榮 1.5711 16.1707
      8 生 1.5122 17.6829
      9 芳 1.3276 19.0105
      10 琴 1.2641 20.2746
       
       (3)姓氏用字的構(gòu)詞特征
           根據(jù)姓氏用字的構(gòu)詞,可將姓氏用字分成以下三類:
      絕對(duì)封閉式姓氏用字。有些姓氏用字不可獨(dú)立成詞。不能與其它字構(gòu)成詞,只能作姓氏用,如:“鄧、聶”。這類字稱作絕對(duì)封閉式姓氏用字。
      相對(duì)封閉式姓氏用字。有些姓氏用字雖然不能獨(dú)立成詞,但能與其它字構(gòu)成詞,如:“劉”字就可與其它字構(gòu)成“額前的劉海兒,”等詞。這類字稱作相對(duì)封閉式姓氏用字。
      開(kāi)放式姓氏用字。有些姓氏用字可以獨(dú)立成詞,婦:“湯、馬”等,這類字稱作開(kāi)放式姓氏用字。
      (4)名字用字的構(gòu)詞特征。
       根據(jù)名字用字的構(gòu)詞能力,可同樣將名字用字分成以下三類:
       【a】 絕對(duì)封閉式名字用字。有些名字用字既不可獨(dú)立成詞,又不能與其它字構(gòu)成詞,只能作名字用,如:“逵”,這類字稱作絕對(duì)封閉式名字用字。
       【b】 相對(duì)封閉式名字用字。有些名字用字雖然不能獨(dú)立成詞,但能與其它構(gòu)成詞,如:“睿”就可與其它字構(gòu)成“睿智”一詞。這類字稱作相對(duì)封閉式名字用字。
      開(kāi)放式名字用字。有些名字用字可以獨(dú)立成詞,如:“愛(ài)”。這類字稱作開(kāi)放式名字用字。3)和(4)的分類是針對(duì)中國(guó)人名的識(shí)別而言,在真實(shí)文本中也存在著一些特殊情況。象“鄧”這個(gè)字可以是中國(guó)地名用字,如:鄧家莊,也可以是譯名用字,如:秀蘭·鄧波兒。
       中國(guó)姓名的限制成分
       (1)身份詞:包括職務(wù)、職業(yè)、頭銜的詞語(yǔ)和親屬稱謂語(yǔ)等。有些只用在人名之前,稱為前稱謂詞.如:青年、戰(zhàn)士、運(yùn)動(dòng)員、工人、教師、影星、犯人、丈夫、妻子等;有些只能用在人名之后,叫后稱謂詞,如:之流、閣下等;有些在人名前或前均可,叫做雙向稱謂詞,如:教授、總理、小姐等。表示職業(yè)的身份詞有時(shí)加修飾詞如“副總理”、“副經(jīng)理”的“副”,“代廠長(zhǎng)”、“代市長(zhǎng)”的“代”等。
           (2)地名或單位名,它們用在人名前邊,如:“太原鋼鐵公司李雙良”,“中國(guó)女子排球隊(duì)周小蘭”等。
       (3)成串人名之間用頓號(hào)和“和”、“同”、“及”等連詞連結(jié),此時(shí)限制性成分放在名字串尾時(shí),與最后一個(gè)人名之間加“等”。如:“聶衛(wèi)平、馬曉青、劉小芳等圍棋國(guó)手”。
          (4)指界動(dòng)詞,有些動(dòng)詞常常緊跟在姓名的后面出現(xiàn),可作為人名的右邊界標(biāo)志。單字動(dòng)詞有:說(shuō)、講、談、稱、是、獲、抵、率、偕等。雙字動(dòng)詞有:報(bào)導(dǎo)、會(huì)見(jiàn)、介紹、邀請(qǐng)、應(yīng)邀、會(huì)晤、參加、出席、訪問(wèn)等[10]。
      2.1.2  基于規(guī)則的人名識(shí)別方法中的相關(guān)資源
       在自然語(yǔ)言處理中,基于統(tǒng)計(jì)的方法的優(yōu)點(diǎn)是對(duì)不確定事件的定量描述.因此必然會(huì)抑制小概率事件的發(fā)生,基于規(guī)則的方法的優(yōu)點(diǎn)在于根據(jù)上下文對(duì)確定事件的定性描述,有些統(tǒng)計(jì)方法無(wú)法解決的問(wèn)題利用規(guī)則很容易解決。但它本質(zhì)上說(shuō)是一種確定性的演繹推理方法,這就決定了它在自然語(yǔ)言處理中不可能具有很強(qiáng)的魯棒性。因此,最好的辦法是將二者結(jié)合,即:統(tǒng)計(jì)與規(guī)則相結(jié)合的方法。它綜合了基于規(guī)則的方法能夠反映語(yǔ)言的約束關(guān)系和遞歸現(xiàn)象的優(yōu)點(diǎn)以及基于統(tǒng)計(jì)的方法適合處理非受限的文本,系統(tǒng)魯棒性更強(qiáng),運(yùn)行速度更快的優(yōu)點(diǎn)[11] [12]。
      ● 建立人名規(guī)則庫(kù)
       1、姓名用字規(guī)則
       設(shè):C是漢字字符集合,w是詞表中所有詞的集合,則構(gòu)詞規(guī)則:對(duì)于某個(gè)形如 CmXiEkCn或CmXiMjEkCn的片語(yǔ),且XiEk或XiMjEk是潛在姓名
       若:CmXi∈W或EkCn∈w并且在文本中,Cm不用于姓名前或Cn不用于姓名后,則XiEk或XiMjEk不是姓名。
       如:在片語(yǔ)“繁榮昌盛”中,由于“繁”不用于姓名前,根據(jù)此規(guī)則,“榮”不是姓氏。
       詞型規(guī)則:在形如CmXi的片語(yǔ)中,若Cm∈{數(shù)詞、多、各…}則,在此片語(yǔ)中,Xi不作姓氏。
       如:在片語(yǔ)“多項(xiàng)榮譽(yù)”中,根據(jù)此規(guī)則,“項(xiàng)”不是姓氏。
       單名擴(kuò)展規(guī)則:如果經(jīng)過(guò)分析后的句子結(jié)構(gòu)為:sn+Cn+W并且sn右界不確定,snCn右界確定,則snCn組成復(fù)名。
       如:片語(yǔ)“趙德荏說(shuō)”中,如果最后的識(shí)別結(jié)果是“趙德”,由于“說(shuō)”是指界詞,系統(tǒng)輸出“趙德荏”。
       2、稱謂擴(kuò)展規(guī)則
           設(shè)K={副、總、代、代理、助理、常務(wù)、名譽(yù)、榮譽(yù)},wi∈Titles,則KjWk,KiKjWk,KnKiKjWk也是稱謂詞。
       如:“經(jīng)理”是稱謂詞,則“總經(jīng)理、副總經(jīng)理、”也是稱謂詞。
       3、姓名邊界確定規(guī)則
           ·左界規(guī)則:若姓名前面是一稱謂,或是一個(gè)標(biāo)點(diǎn)符號(hào),或姓名在句首。或姓         名的的姓氏使用頻率為100%.則姓名的左界確定。
          ·右界規(guī)則:若姓名后面是一稱謂,或是一個(gè)指界動(dòng)詞,或是一標(biāo)點(diǎn)符號(hào),或姓名在句尾,或姓名的的名字尾字使用頻率為100%。則姓名的右界確定。
       如:片語(yǔ)“教授王文和說(shuō)”中,“教授”是稱謂詞,“說(shuō),’是指屆詞,因而“王文和”的左右界確定。
           ·并列規(guī)則:連續(xù)人名中,如果有兩個(gè)以上的姓名確定,那么其它并列的字串是姓名,并且連詞不作為姓名的一部分。
       如:片語(yǔ)“青工王玉開(kāi)、李澤軍和林龍等人”中,由于是人名并列,因此按此規(guī)則,“和”不作為姓氏。
       4、沖突發(fā)現(xiàn)規(guī)則
          在我們的系統(tǒng)中,將沖突分為兩類:同類沖突、異類沖突。同類沖突:自動(dòng)辨識(shí)時(shí)產(chǎn)生的有重合部分的兩個(gè)或多個(gè)同一類型的專名。異類沖突:自動(dòng)辨識(shí)時(shí)識(shí)別出的姓名與其它專名或非專名詞語(yǔ)存在重合部分。如:片語(yǔ)“浙江農(nóng)民企業(yè)家朱重慶碰到過(guò)類似怪事”中,“朱重慶”、“重慶”是異類沖突.在每一種專有名詞的識(shí)別中,都先解決同類沖突。在中文姓名的識(shí)別中.同類沖突表現(xiàn)為兩種形式:同姓異名對(duì)、異姓異名對(duì)。
           ·同姓異名對(duì)的尋找規(guī)則:如果兩個(gè)PName的起點(diǎn)相同,終點(diǎn)不同,則為一同
      異名對(duì)。
           ·異姓異名對(duì)的尋找規(guī)則:如果兩個(gè)PName起點(diǎn)不同,但有交叉部分,則為一異姓異名對(duì)。
       如:片語(yǔ)“選舉王林海為新的村長(zhǎng)”中,“王林、王林海”為同姓異名對(duì),“王林海”與“林海為、林海”為異姓異名對(duì)。
       5、沖突處理規(guī)則
       ·屏蔽規(guī)則: 若PName∈protects則PName不是中文姓名。
           ·修飾規(guī)則:若Xi與“.”字符距離不超過(guò)2個(gè)字符的距離,則否定此姓名。
          ·同姓異名對(duì)右界否定規(guī)則:若同姓異名對(duì)中有一個(gè)姓名的右界確定,則否定另一個(gè)姓名。
           ·異姓異名對(duì)左界否定規(guī)則:若異姓異名對(duì)中有一個(gè)姓名的左界確定,則否定另一個(gè)姓名。
          ·局部頻度否定規(guī)則:設(shè)[PName1.PName2]為一同姓異名對(duì)或異姓異名對(duì),且PName1,PName2的邊界均未確定,若f(PName1)>f(PName2),則否定Pname2;反之,則否定PName1。
           ·概率否定規(guī)則:Np(sn)=FFreq×Efreq    Np(pn)=FFreq×MFrexl×Efreq其中:Ffreq、Mfreq、Efreq分別為根據(jù)姓名庫(kù)中統(tǒng)計(jì)得到的姓氏使用頻率、名字首字使用頻率、名字尾字使用頻率。
       設(shè)[PNamel,PName2]為一同姓異名對(duì)或異姓異名對(duì),且。PNamel,PName2的邊界均未定,且局部頻度相同。若lg(Np(PNamel))/length(PName1)>lg(Np(PName2))/length(PName2)則否定PName2;反之,則否定PName1;Length~Name)表示PName的字符串長(zhǎng)度,最長(zhǎng)為4。
       6、實(shí)例規(guī)則
           在真實(shí)文本語(yǔ)料庫(kù)的基礎(chǔ)上,建造了包含7014個(gè)句子的實(shí)例庫(kù),根據(jù)下列符號(hào)化減后得到規(guī)則2520條。CN:中文姓名
       {}:可選項(xiàng)標(biāo)識(shí)
       Xstring:任意字符
       DataString:日期
       Titles:稱謂指界詞
       Numbers:數(shù)字
       例如:實(shí)例:“第五醫(yī)院的主治醫(yī)師祝如東同樣說(shuō):”可作如下簡(jiǎn)化:Xstring的TitlesCN{ 同樣 }Titles
       這樣在片語(yǔ)“人大代表老蔚可認(rèn)為”中,由于“代表、認(rèn)為”是稱謂指界詞,所以“老蔚可”是姓名。
       7、實(shí)例規(guī)則評(píng)價(jià)
           系統(tǒng)中以規(guī)則使用之后的正確率作為評(píng)價(jià)規(guī)則的依據(jù)。規(guī)則評(píng)價(jià)函數(shù)定義為:F=Name/Total,其中Fi表示第i條規(guī)則的可信度,Total表示第i條規(guī)則應(yīng)用總次數(shù),Num表示第i條規(guī)則作用后的正確次數(shù)。
       8、非全稱姓名生成規(guī)則
          【a】 特殊簡(jiǎn)稱姓名生成規(guī)則
           R1:設(shè):K1={小、老},如果Ci∈K則CiXi是一個(gè)簡(jiǎn)稱潛在姓名。
        R2:K2={工、總}(cāng),如果Ci∈K則XiCi是一個(gè)簡(jiǎn)稱潛在姓名。
       R3:對(duì)于某個(gè)形如XiWb的片語(yǔ),如果WB是后稱謂,則Xi是姓氏。
       【b】 全稱推出規(guī)則
       對(duì)于某個(gè)形如的{wF}XiMjEk{wB}片語(yǔ),WF、WB∈ Titles,{}表示可選項(xiàng),C(XiMjEk)表示中文姓名XiMjEk的可信度。
      R1:若c(XiMjEk)=10則Xi為人名簡(jiǎn)稱,MiEk為人名簡(jiǎn)稱;規(guī)則強(qiáng)度1.0
      R2:若6≤C(XiMjEk<10則Xi為人名簡(jiǎn)稱,MjEk為人名簡(jiǎn)稱;規(guī)則強(qiáng)度O.8
        R3:若6≤C(XiMjEk)<IO并且存在WF,則Xi為人名簡(jiǎn)稱,MjEk為人名簡(jiǎn)稱;規(guī)則強(qiáng)度1.0
        R4:若6≤C(XiMjEk)<1O并且存在WB,則Xi為人名簡(jiǎn)稱,MjEk為人名簡(jiǎn)稱;規(guī)則強(qiáng)度1.0 

      首頁(yè) 上一頁(yè) 1 2 3 4 下一頁(yè) 尾頁(yè) 2/4/4


      相關(guān)論文
      上一篇:基于知識(shí)庫(kù)的的問(wèn)答式系統(tǒng)的研究 下一篇:東大人理財(cái)理念的調(diào)查
      Tags:中國(guó) 姓名 地名 自動(dòng)識(shí)別 系統(tǒng) 研究 【收藏】 【返回頂部】
      人力資源論文
      金融論文
      會(huì)計(jì)論文
      財(cái)務(wù)論文
      法律論文
      物流論文
      工商管理論文
      其他論文
      保險(xiǎn)學(xué)免費(fèi)論文
      財(cái)政學(xué)免費(fèi)論文
      工程管理免費(fèi)論文
      經(jīng)濟(jì)學(xué)免費(fèi)論文
      市場(chǎng)營(yíng)銷免費(fèi)論文
      投資學(xué)免費(fèi)論文
      信息管理免費(fèi)論文
      行政管理免費(fèi)論文
      財(cái)務(wù)會(huì)計(jì)論文格式
      數(shù)學(xué)教育論文格式
      數(shù)學(xué)與應(yīng)用數(shù)學(xué)論文
      物流論文格式范文
      財(cái)務(wù)管理論文格式
      營(yíng)銷論文格式范文
      人力資源論文格式
      電子商務(wù)畢業(yè)論文
      法律專業(yè)畢業(yè)論文
      工商管理畢業(yè)論文
      漢語(yǔ)言文學(xué)論文
      計(jì)算機(jī)畢業(yè)論文
      教育管理畢業(yè)論文
      現(xiàn)代教育技術(shù)論文
      小學(xué)教育畢業(yè)論文
      心理學(xué)畢業(yè)論文
      學(xué)前教育畢業(yè)論文
      中文系文學(xué)論文
      最新文章
      熱門文章
      計(jì)算機(jī)論文
      推薦文章

      本站部分文章來(lái)自網(wǎng)絡(luò),如發(fā)現(xiàn)侵犯了您的權(quán)益,請(qǐng)聯(lián)系指出,本站及時(shí)確認(rèn)刪除 E-mail:349991040@qq.com

      論文格式網(wǎng)(www.donglienglish.cn--論文格式網(wǎng)拼音首字母組合)提供其他論文畢業(yè)論文格式,論文格式范文,畢業(yè)論文范文

      Copyright@ 2010-2018 LWGSW.com 論文格式網(wǎng) 版權(quán)所有

      感谢您访问我们的网站,您可能还对以下资源感兴趣:

      论文格式网:毕业论文格式范文