表2.7 頻率最高的前十個地名中字表 地名用字 首字頻次 中字頻次 尾字頻次 總次數 家 8 4285 240 4533 山 227 2871 3725 6923 河 299 2149 2501 4949 水 410 2001 182 2593 族 0 1676 0 1676 子 47 1627 782 2456 莊 47 1558 515 2120 橋 159 1277 1401 2837 城 382 1249 190 1821 溪 91 1181 247 1518 表2.8 頻率最高的前十個地名尾字表 地名用字 首字頻次 中字頻次 尾字頻次 總次數 鄉 8 119 36115 36242 鎮 121 188 11667 11976 山 227 2871 3725 6823 河 299 2149 2501 4949 縣 3 86 1759 1848 橋 159 1277 1401 2837 村 8 939 1275 2222 區 0 16 1141 1157 場 13 322 976 1302 庫 93 137 784 1014
表2.9 頻率最高的前十個地名用字表 地名用字 首字頻次 中字頻次 尾字頻次 總次數 鄉 8 119 36115 36242 鎮 121 188 11667 11976 山 227 2871 3725 6823 河 229 2149 2501 4949 家 8 4285 240 4533 大 3134 805 2 3941 橋 159 1277 1401 2837 水 410 2001 182 2593 子 47 1627 782 2456 龍 1169 1064 37 2270 ● 地名的上下文信息 與中國姓名識別中采用的方法相似,我們從大規模真實文本中統計產生中國地名的左右指界詞集,并按照指界詞與地名的共現頻率劃分指示級別。級別從高到低依次為l級、2級、3級、O級(無邊界) [14],表2.10和表2.11分別列出了中國地名的左邊界信息和右邊界信息。 表2.10 中國地名的左邊界信息 邊界級別 類型 實例 1 1級左指界詞、地名、地名指代 “原籍”、“開赴” “**省/平邑縣” “該縣/黃田鎮…” 2 2級左指界詞、句首 “靠近”、“榮獲” 3 3級左指界詞 “走訪”、“憑借” 表2.11 中國地名的右邊界信息 邊界級別 類型 實例 1 l級右指界詞、地名、地名指代 “高原”、“邊界” “平邑縣/**村”“…**、高碧/等4鄉” 2 2級右指界詞、句末標點 “籌建”、“郊外” 3 3級右指界詞 “推行”、“物價” 2.2.2 基于規則的地名識別方法中的相關資源 漢族地名在大規模真實文本中出現的基本上是縣級及其以上的地名,動態出現的非常少,所以,在地名動態識別過程中,我們可以將縣級及其以上的地名都收錄到靜態的詞表中,就基本上解決了絕大部分漢族地名識別的問題。然后再對極少數地名做動態識別[15] [16]。 從地名構成上來看,可以把地名拆分為地名核心成分和地名尾兩部分。 例如:地名“浙江省”就是由地名核心成分“浙江”和地名尾“省”組成的,同樣地,地名“安苑路”是由地名核心成分“安苑”和地名尾“路”組成的。但是,作為地名標志的“省”和“路”有時候在文本中是不出現的,也就是當我們只說“浙江”時,大家也知道是“浙江省”。 某些中國地名遵循一定的構詞規則,主要如下: 【a】 單字姓氏+“家”+地名后綴 如:“趙家樓、蔡家坡” 【b】 數詞+“里”+地名后綴 如:“三里屯、五里坪、十八里鋪” 【c】 實體名詞+地名后綴 如:“葫蘆島、天鵝湖、狼牙山” 2.3 相關程序設計的技術 Visual Basic 是新型的計算機程序設計語言,與傳統程序設計語言相比,Visual Basic 有許多特點,最突出的特點是可視化,事件驅動和交互式。 可視化 使用傳統的計算機高級語言開發應用程序,應用程序界面都需要程序員編寫語句來實現。對于圖形界面的應用程序,只有在程序運行是才能看到效果,一旦不滿意,還需要修改程序,所以開發工作非常繁雜。 Visual Basic是Windows 環境下的應用程序開發工具,用它開發應用程序主要有兩部分工作:設計界面和編寫代碼。Visual Basic似乎可視化程序開發工具,在開發過程中看到的界面,與程序運行是的界面基本相同。同時Visual Basic 還想程序員提供了若干界面設計所需要的對象(稱為控件),程序員在設計界面是,只要將所需要的控件放到窗口的指定位置即可,整個界面設計過程基本不需要編寫代碼。 事件驅動 在傳統的或“過程化”的應用程序中,應用程序自身控制了執行哪一部分代碼和按何種順序執行代碼。程序從第一行代碼執行并按應用程序中預定的路徑執行,必要是調用過程。 用Visual Basic 開發的應用程序,代碼不是按照預定的路徑執行,而是在響應不同的事件是執行不同的代碼片段。事件可以由用戶操作觸發,也可以由來自操作系統或其他應用程序的消息觸發,甚至由應用程序本身的消息觸發。這些時間的順序決定了代碼執行的順序,因此應用程序每次運行是所經過的代碼的路徑都是不同的。 因為事件的順序是無法預測的,所以在代碼中必須對執行的“各種狀態”作一定的假設。當作出某些設計時,應組織好應用程序的結構,以確保該假設始終有效。在執行中代碼也可以觸發事件。如果原來的假設該事件僅能有用戶的交互操作所觸發,則可能會產生意料外的結果。 交互式 傳統的應用程序的開發過程可以分為3個明顯的步驟:編碼,編譯和測試代碼。但是Visual Basic 與傳統的語言不同,它使用交互式方法開發應用程序,使3個步驟之間不再有明顯的界限。 在C ,Pascal 等語言里,如果編寫代碼是發生了錯誤,則在開始編譯應用程序時該錯誤就會被翻譯器捕獲,此時必須查找并改正錯誤,然后再次進行編譯,對每一個發現的錯誤都要重復這樣的過程。Visual Basic 在編程者輸入代碼是便進行解釋,實時捕獲并突出顯示大多數語法或拼寫錯誤,看起來像一位專家在監視代碼的輸入。 除實時捕獲錯誤以外,Visual Basic 也在輸入代碼時部分地編譯該代碼,當準備運行和測試應用程序是,只需要段時間即可完成編譯。如果編譯器發現了錯誤,則將錯誤突出顯示于代碼中,這時可是更正錯誤并繼續編譯,而不是從頭開始。 首頁 上一頁 1 2 3 4 下一頁 尾頁 3/4/4 相關論文
首頁 上一頁 1 2 3 4 下一頁 尾頁 3/4/4
本站部分文章來自網絡,如發現侵犯了您的權益,請聯系指出,本站及時確認刪除 E-mail:349991040@qq.com
論文格式網(www.donglienglish.cn--論文格式網拼音首字母組合)提供其他論文畢業論文格式,論文格式范文,畢業論文范文