論文格式
          電氣工程 會計論文 金融論文 國際貿易 財務管理 人力資源 輕化工程 德語論文 工程管理 文化產業管理 信息計算科學 電氣自動化 歷史論文
          機械設計 電子通信 英語論文 物流論文 電子商務 法律論文 工商管理 旅游管理 市場營銷 電視制片管理 材料科學工程 漢語言文學 免費獲取
          制藥工程 生物工程 包裝工程 模具設計 測控專業 工業工程 教育管理 行政管理 應用物理 電子信息工程 服裝設計工程 教育技術學 論文降重
          通信工程 電子機電 印刷工程 土木工程 交通工程 食品科學 藝術設計 新聞專業 信息管理 給水排水工程 化學工程工藝 推廣賺積分 付款方式
          • 首頁 |
          • 畢業論文 |
          • 論文格式 |
          • 個人簡歷 |
          • 工作總結 |
          • 入黨申請書 |
          • 求職信 |
          • 入團申請書 |
          • 工作計劃 |
          • 免費論文 |
          • 現成論文 |
          • 論文同學網 |
          搜索 高級搜索

          當前位置:論文格式網 -> 免費論文 -> 其他論文

          中國姓名和地名自動識別系統的研究(三)

          本論文在其他論文欄目,由論文格式網整理,轉載請注明來源www.donglienglish.cn,更多論文,請點論文格式范文查看
          R5:若6≤C(XiMjEk)<10,則Xi為人名簡稱,MjEK為人名簡稱:規則強度0.6
             R6:若1≤C(XiMjEk)<6,則Xi為人名簡稱,MjEk為人名簡稱;規則強度0.4
            R7:Xi或MjEk的可信度 = 規則強度×C(XiMjEk)
              R8:若存在WFXi或XiWB,則Xi可信度=規則強度×c(XiMjEk)+5
          2.1.3  基于結合性的人名識別方法中的相關資源
           基于結合性的方法不需要大規模的中文姓名庫,以姓名前后的詞性為判斷基礎,輔以前后稱謂、“是、吧”等特征字加以判斷。用詞性判斷姓名的主要規則如下:
           設字符串W1 W2 W3 W4,其中W1為姓氏,W2, W3為單字詞,W4為已經切分好的詞,如果W3和W4滿足下面條件之一,則W3不為姓名:
           l. W3是動詞,W4是虛詞,如“笑了、醒著”;
           2. W3是虛詞,W4是動詞,如“亦是、也算”;
           3. W3是動詞,W4是方位詞,如“翻過、跳上”;
           4. W3是數詞,W4是量詞,如“三臺、8張”;
           再舉一些判斷姓名的例子如下:
           李豆指著新蓋的樓說(“指著”構成動詞十助詞,所以姓名為李豆)
           張燕被選為代表(“被選”構成介詞+動詞,所以姓名為張燕)
           劉杰走后(“走后”構成動詞+方位詞,所以姓名為劉杰)
           丁偉五段(“五段”構成數詞+量詞,所以姓名為丁偉)
           趙銳一臉苦笑(“一臉”構成數詞十量詞,所以姓名為趙銳) [12]
          2.2  地名識別的相關資源
          2.2.1基于統計的地名識別方法中的相關資源
           基本思想是根據大規模的中國地名資源庫(包括中國地名庫、中國地名用字庫)統計出中國地名的用字信息、中國地名的上下文信息以及各種數據表,識別地名時采用匹配地名資源庫與結合地名規則識別的方法。相關的數據資源如下:
          ● 地名的用字信息
           從《中國地名語源詞典》和50萬字的新聞語料出發,建立了一個含6,214條地名的中國地名樣本庫,從中統計得到中國地名用字1737個,其中字頻最高的100個占總數的49.07%,前。797個占總數的90-39%。對其中每個中國地名用字c,分別統計它作為地名首字、中間字和尾字的出現頻數,位置出現頻數大于O的首字、中間字和尾字分別有1285個,752個和835個[13]。表2.6、表2.7、表2.8和表2.9分別列出了出現頻率最高的前十個地名首字、地名中字、地名尾字和地名用字。
           表2.6 頻率最高的前十個地名首字表
          地名用字 首字頻次 中字頻次  尾字頻次 總次數
          大                               3134 805 2 3941
          新 1605 403 6 2014
          東      1529 465 31 2024
          石       1219 711 99 2089
          西      1195 464 46 1705
          白      1179 196 4 1379
          三        1172 126 0 1298
          龍      1169 1064 37 2270
          南      1159 490 25 1673
          黃       976 118 0 1094

           表2.7 頻率最高的前十個地名中字表
          地名用字               首字頻次 中字頻次 尾字頻次 總次數
          家  8 4285 240 4533
          山       227 2871 3725 6923
          河     299 2149 2501 4949
          水       410 2001 182 2593
          族         0 1676 0 1676
          子         47 1627 782 2456
          莊          47 1558 515 2120
          橋         159 1277 1401 2837
          城         382 1249 190 1821
          溪          91 1181 247 1518
           表2.8 頻率最高的前十個地名尾字表
          地名用字 首字頻次 中字頻次 尾字頻次 總次數
          鄉       8 119 36115 36242
          鎮       121 188 11667 11976
          山         227 2871 3725 6823
          河         299 2149 2501 4949
          縣           3 86 1759 1848
          橋         159 1277 1401 2837
          村           8 939 1275 2222
          區           0 16 1141 1157
          場        13 322 976 1302
          庫         93 137 784 1014

           表2.9  頻率最高的前十個地名用字表
          地名用字 首字頻次 中字頻次 尾字頻次 總次數
          鄉 8 119 36115 36242
          鎮  121 188 11667 11976
          山   227 2871 3725 6823
          河       229 2149 2501 4949
          家   8 4285 240 4533
          大     3134 805 2 3941
          橋     159 1277 1401 2837
          水   410 2001 182 2593
          子  47 1627 782 2456
          龍    1169 1064 37 2270
          ● 地名的上下文信息
           與中國姓名識別中采用的方法相似,我們從大規模真實文本中統計產生中國地名的左右指界詞集,并按照指界詞與地名的共現頻率劃分指示級別。級別從高到低依次為l級、2級、3級、O級(無邊界) [14],表2.10和表2.11分別列出了中國地名的左邊界信息和右邊界信息。
           表2.10 中國地名的左邊界信息
          邊界級別 類型 實例 
          1 1級左指界詞、地名、地名指代     “原籍”、“開赴” “**省/平邑縣” “該縣/黃田鎮…”
          2 2級左指界詞、句首 “靠近”、“榮獲”
          3 3級左指界詞 “走訪”、“憑借”
           表2.11 中國地名的右邊界信息
          邊界級別 類型 實例  
          1 l級右指界詞、地名、地名指代 “高原”、“邊界” “平邑縣/**村”“…**、高碧/等4鄉”
          2 2級右指界詞、句末標點 “籌建”、“郊外”
          3 3級右指界詞 “推行”、“物價” 
          2.2.2  基于規則的地名識別方法中的相關資源
           漢族地名在大規模真實文本中出現的基本上是縣級及其以上的地名,動態出現的非常少,所以,在地名動態識別過程中,我們可以將縣級及其以上的地名都收錄到靜態的詞表中,就基本上解決了絕大部分漢族地名識別的問題。然后再對極少數地名做動態識別[15] [16]。
           從地名構成上來看,可以把地名拆分為地名核心成分和地名尾兩部分。
           例如:地名“浙江省”就是由地名核心成分“浙江”和地名尾“省”組成的,同樣地,地名“安苑路”是由地名核心成分“安苑”和地名尾“路”組成的。但是,作為地名標志的“省”和“路”有時候在文本中是不出現的,也就是當我們只說“浙江”時,大家也知道是“浙江省”。
           某些中國地名遵循一定的構詞規則,主要如下:
            【a】 單字姓氏+“家”+地名后綴      如:“趙家樓、蔡家坡”
            【b】 數詞+“里”+地名后綴          如:“三里屯、五里坪、十八里鋪”
            【c】 實體名詞+地名后綴             如:“葫蘆島、天鵝湖、狼牙山”
          2.3  相關程序設計的技術
           Visual Basic 是新型的計算機程序設計語言,與傳統程序設計語言相比,Visual Basic 有許多特點,最突出的特點是可視化,事件驅動和交互式。
          可視化
           使用傳統的計算機高級語言開發應用程序,應用程序界面都需要程序員編寫語句來實現。對于圖形界面的應用程序,只有在程序運行是才能看到效果,一旦不滿意,還需要修改程序,所以開發工作非常繁雜。
           Visual Basic是Windows 環境下的應用程序開發工具,用它開發應用程序主要有兩部分工作:設計界面和編寫代碼。Visual Basic似乎可視化程序開發工具,在開發過程中看到的界面,與程序運行是的界面基本相同。同時Visual Basic 還想程序員提供了若干界面設計所需要的對象(稱為控件),程序員在設計界面是,只要將所需要的控件放到窗口的指定位置即可,整個界面設計過程基本不需要編寫代碼。
          事件驅動
           在傳統的或“過程化”的應用程序中,應用程序自身控制了執行哪一部分代碼和按何種順序執行代碼。程序從第一行代碼執行并按應用程序中預定的路徑執行,必要是調用過程。
           用Visual Basic 開發的應用程序,代碼不是按照預定的路徑執行,而是在響應不同的事件是執行不同的代碼片段。事件可以由用戶操作觸發,也可以由來自操作系統或其他應用程序的消息觸發,甚至由應用程序本身的消息觸發。這些時間的順序決定了代碼執行的順序,因此應用程序每次運行是所經過的代碼的路徑都是不同的。
           因為事件的順序是無法預測的,所以在代碼中必須對執行的“各種狀態”作一定的假設。當作出某些設計時,應組織好應用程序的結構,以確保該假設始終有效。在執行中代碼也可以觸發事件。如果原來的假設該事件僅能有用戶的交互操作所觸發,則可能會產生意料外的結果。
          交互式
           傳統的應用程序的開發過程可以分為3個明顯的步驟:編碼,編譯和測試代碼。但是Visual Basic 與傳統的語言不同,它使用交互式方法開發應用程序,使3個步驟之間不再有明顯的界限。
           在C ,Pascal 等語言里,如果編寫代碼是發生了錯誤,則在開始編譯應用程序時該錯誤就會被翻譯器捕獲,此時必須查找并改正錯誤,然后再次進行編譯,對每一個發現的錯誤都要重復這樣的過程。Visual Basic 在編程者輸入代碼是便進行解釋,實時捕獲并突出顯示大多數語法或拼寫錯誤,看起來像一位專家在監視代碼的輸入。
           除實時捕獲錯誤以外,Visual Basic 也在輸入代碼時部分地編譯該代碼,當準備運行和測試應用程序是,只需要段時間即可完成編譯。如果編譯器發現了錯誤,則將錯誤突出顯示于代碼中,這時可是更正錯誤并繼續編譯,而不是從頭開始。

          首頁 上一頁 1 2 3 4 下一頁 尾頁 3/4/4


          相關論文
          上一篇:基于知識庫的的問答式系統的研究 下一篇:東大人理財理念的調查
          Tags:中國 姓名 地名 自動識別 系統 研究 【收藏】 【返回頂部】
          人力資源論文
          金融論文
          會計論文
          財務論文
          法律論文
          物流論文
          工商管理論文
          其他論文
          保險學免費論文
          財政學免費論文
          工程管理免費論文
          經濟學免費論文
          市場營銷免費論文
          投資學免費論文
          信息管理免費論文
          行政管理免費論文
          財務會計論文格式
          數學教育論文格式
          數學與應用數學論文
          物流論文格式范文
          財務管理論文格式
          營銷論文格式范文
          人力資源論文格式
          電子商務畢業論文
          法律專業畢業論文
          工商管理畢業論文
          漢語言文學論文
          計算機畢業論文
          教育管理畢業論文
          現代教育技術論文
          小學教育畢業論文
          心理學畢業論文
          學前教育畢業論文
          中文系文學論文
          最新文章
          熱門文章
          計算機論文
          推薦文章

          本站部分文章來自網絡,如發現侵犯了您的權益,請聯系指出,本站及時確認刪除 E-mail:349991040@qq.com

          論文格式網(www.donglienglish.cn--論文格式網拼音首字母組合)提供其他論文畢業論文格式,論文格式范文,畢業論文范文

          Copyright@ 2010-2018 LWGSW.com 論文格式網 版權所有

          感谢您访问我们的网站,您可能还对以下资源感兴趣:

          论文格式网:毕业论文格式范文