• <strike id="60ayi"></strike><li id="60ayi"></li>
  • <strike id="60ayi"></strike>
  • 論文格式
    電氣工程 會計論文 金融論文 國際貿易 財務管理 人力資源 輕化工程 德語論文 工程管理 文化產業管理 信息計算科學 電氣自動化 歷史論文
    機械設計 電子通信 英語論文 物流論文 電子商務 法律論文 工商管理 旅游管理 市場營銷 電視制片管理 材料科學工程 漢語言文學 免費獲取
    制藥工程 生物工程 包裝工程 模具設計 測控專業 工業工程 教育管理 行政管理 應用物理 電子信息工程 服裝設計工程 教育技術學 論文降重
    通信工程 電子機電 印刷工程 土木工程 交通工程 食品科學 藝術設計 新聞專業 信息管理 給水排水工程 化學工程工藝 推廣賺積分 付款方式
    • 首頁 |
    • 畢業論文 |
    • 論文格式 |
    • 個人簡歷 |
    • 工作總結 |
    • 入黨申請書 |
    • 求職信 |
    • 入團申請書 |
    • 工作計劃 |
    • 免費論文 |
    • 合作期刊 |
    • 論文同學網 |
    搜索 高級搜索

    當前位置:論文格式網 -> 畢業論文 -> 計算機論文
    畢業論文標題:

    基于Nutch的搜索引擎實現及中文擴展

     本文ID:LWGSW13493 價格:收費積分/100
    掃一掃 掃一掃
    本站會員可自行下載:下載地址 基于Nutch的搜索引擎實現及中文擴展 (收費:1000 積分)  

    論文字數:19341,頁數:41 有開題報告,任務書

    摘    要
         
     搜索引擎是為滿足人們網絡信息搜索應運而生的網絡工具,它是互聯網信息查詢的導航針,是溝通用戶與網絡信息的橋梁。然而,隨著網上內容的爆炸式增長和內容形式花樣的不斷翻新,搜索引擎越來越不能滿足挑剔的網民們的各種搜索需求,盡管Web搜索是漫游Internet的基本要求, 并且現有web搜索引擎的數目卻在下降。 這很有可能進一步演變成為一個公司壟斷了幾乎所有的web搜索為其謀取商業利益。于是強有力的搜索工具成為這些網民們的渴盼。作為Apache開源子項目,Nutch 提供完整的搜索引擎框架,在對全文進行索引的時候,索引部分采用了開源工具包Lucene進行全文索引。通過對Nutch的二次開發,我們可以利用它強大的網絡資源采集功能對網絡資源進行采集,并加工進入本地庫,最后讓用戶直接面對有效的信息。
     本文重點討論搜索引擎原理,基于Nutch的搜索引擎的實現架構,同時網頁抓取過程做了深入的研究和分析;最后,對在早期Nutch的版本的基礎上如何更好的支持中文,實現中文分詞搜索給出問題的解決方案,并對基于Nutch的搜索引擎的應用進行了討論。
     
     關鍵詞:搜索引擎,抓取器,Nutch,中文分詞
     
    Nutch –Based Search Engine Implementation and Chinese extension
               

     Abstract
     Search engine is the internet tool meeting demands of people while surfing on the internet and searching the information. It is a Internet Information navigation and bridge between internet user and information. However, with the sharply increase of the net content and the surprisingly change of the Synchronized forms of content, search engine can not satisfy increasingly critical user’s all kinds of search demands, although Web search is the foundation of the internet Roaming ,the existing number of search engine is down.This phenomenon can easily became one company almost monopolized all web search for its commercial gain.  Therefore ,a strong and useful and effective search tool rise to the hope focus of internet user.Nutch is such search engine, when Nutch aims to text indexing, it uses the revenue Lucene toolkit for full-text indexing. Through the second Nutch development we can make use of its powerful internet resource Collection Function to collect the resource we need, then put the processed information into local database, finally, user can directly face effective information.
     In this paper, we emphasize on the implementation architecture of the Nutch, Search engine principle,webpage crawling process. Excepting the in-depth research and analysis about above, we also give the solution of how to support Chinese and Chinese segmentation on the basis of earlier versions. Finally, a discussion about the application based on Nutch is given.
     
    Key words:Search engine, crawler, Nutch, Chinese segmentation


     目錄
    1緒論 1
    1.1 課題背景   1
    1.2 搜索引擎的現狀 2
    1.2.1搜索引擎的發展歷史 2
    1.2.2搜索引擎的分類 3
    1.2.3當前主流搜索引擎簡介 4
    1.3 論文組織結構 5
    2搜索引擎基本組成及數據結構 6
    2.1搜索引擎基本組成及工作流程 6
    2.1.1基本組成 6
    2.1.2工作流程 6
    2.2 存儲結構 8
    2.2.1頁面存儲庫 8
    2.2.2詞典庫 8
    2.2.3 Hits列表 9
    2.3 索引結構 10
    2.3.1文檔索引庫 10
    2.3.2前向索引表 10
    2.3.3后向索引表 11
    3基于Nutch的搜索引擎實現的關鍵技術 11
    3.1網頁抓取技術研究與設計 11
    3.1.1抓取技術的協議分析 11
    3.1.2通信協議 12
    3.1.3 HTML解析 13
    3.2 網頁抓取方法 13
    4 基于Nutch實現架構 16
    4.1 基于Nutch的搜索引擎開發環境和體系結構 16
    4.1.1 基于Nutch的搜索引擎的開發環境 16
    4.1.2基于 Nutch的搜索引擎的體系結構 16
    4.2 基于Nutch的搜索引擎的抓取過程運行 20
    4.3 搜索結果展示 22
    5 Nutch中文擴展設計與實現 23
    5.1中文分詞和搜索引擎 23
    5.2 中文分詞算法 23
    5.2.1 基于字符串匹配的分詞算法 24
    5.2.2基于理解的分詞方法 25
    5.2.3基于統計的分詞方法 25
    5.3 中文分詞難點 26
    5.4 Nutch分析 27
    5.5 Nutch中文搜索 28
    5.5.1 Nutch中文分詞 28
    5.5.2 JavaCC分析 29
    5.5.3利用JavaCC構造中文分析模塊 31
    5.6小結 33
    結論 33
    總結 33
    展望 33
    致謝 34
    參考文獻 34


    相關論文
    本論文在計算機論文欄目,由論文格式網整理,轉載請注明來源www.donglienglish.cn,更多論文,請點論文格式范文查看
    上一篇:工作流在ERP中的實踐調撥業務的實.. 下一篇:ERP沙盤模擬教學系統的開發
    Tags:Nutch 搜索引擎 中文擴展 【收藏】 【返回頂部】
    最新文章
    熱門文章
    計算機論文
    推薦文章

    本站部分文章來自網絡,如發現侵犯了您的權益,請聯系指出,本站及時確認刪除 E-mail:349991040@qq.com

    論文格式網(www.donglienglish.cn--論文格式網拼音首字母組合)提供計算機論文畢業論文格式,論文格式范文,畢業論文范文

    Copyright@ 2010-2018 LWGSW.com 論文格式網 版權所有 蜀ICP備09018832號

    感谢您访问我们的网站,您可能还对以下资源感兴趣:

    论文格式网:毕业论文格式范文
    <samp id="aeamu"></samp>
  • <strike id="aeamu"></strike>