論文格式
    電氣工程 會計論文 金融論文 國際貿易 財務管理 人力資源 輕化工程 德語論文 工程管理 文化產業管理 信息計算科學 電氣自動化 歷史論文
    機械設計 電子通信 英語論文 物流論文 電子商務 法律論文 工商管理 旅游管理 市場營銷 電視制片管理 材料科學工程 漢語言文學 免費獲取
    制藥工程 生物工程 包裝工程 模具設計 測控專業 工業工程 教育管理 行政管理 應用物理 電子信息工程 服裝設計工程 教育技術學 論文降重
    通信工程 電子機電 印刷工程 土木工程 交通工程 食品科學 藝術設計 新聞專業 信息管理 給水排水工程 化學工程工藝 推廣賺積分 付款方式
    • 首頁 |
    • 畢業論文 |
    • 論文格式 |
    • 個人簡歷 |
    • 工作總結 |
    • 入黨申請書 |
    • 求職信 |
    • 入團申請書 |
    • 工作計劃 |
    • 免費論文 |
    • 合作期刊 |
    • 論文同學網 |
    搜索 高級搜索

    當前位置:論文格式網 -> 畢業論文 -> 計算機論文
    畢業論文標題:

    基于java網絡蜘蛛程序

     本文ID:LWGSW13524 價格:收費積分/100
    掃一掃 掃一掃
    本站會員可自行下載:下載地址 基于java網絡蜘蛛程序 (收費:1000 積分)  

    論文字數:12995,頁數:42 有開題報告,任務書,PPT

     摘  要
     在互聯網發展初期,網站相對較少,信息查找比較容易。然而伴隨互聯網爆炸性的發展,普通網絡用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業搜索網站便應運而生了。網絡蜘蛛程序是Web搜索引擎技術中關鍵的一部分。
     本論文基于現有的知識理論實現了蜘蛛程序,從給定網址開始進行爬行搜索,利用數據庫隊列技術管理網頁鏈接,將訪問過的網頁資源下載到本地硬盤保存。通過使用Lucene工具包對下載資源。利用java.url中的類實現Spider程序與外界通訊,以及處理網頁中的URL連接,對蜘蛛程序的核心類(通訊核心、蜘蛛程序工作核心),資源索引的建立與搜索新型了詳細的研究。
     通過設計分析,完成了自己的蜘蛛爬行程序。程序按照初始設計功能完成,實現了對網絡資源的收集和整理。功能通過了測試,程序可以正常穩定運行
     最后論文對全文進行了總結,并對為了發展的方向進行了展望。
     
    關鍵字:HTTP,線程,Spider,Lucene


    Abstract
     At the initial stage of internet development, there were few websites, so information searching is comparatively easy. However, with the explosion of internet, searching for information became very hard to common website users which calls for the appearance of professional searching websites. A crucial part of web searching engine technology is web spider program.
     This paper realized the following procedures from give the website address to operate searching, make use of data base lining technology to manage webpage linkage to download visited sources to the local hard drives. Lucene tool bag is used to give content to the download sources. This paper is focused on the following technology: the core of spider program (communication core, spider program working core), the establishment of sources and search.
     Though the design analysis, I have finished my own spider creeping program. The program is finished based on initial design, implement the collection and arranging of net sources. These functions passed the test, and is able to run normally.
     
    Key words: HTTP, routine, spider, Lucene
     
     
     
     目   錄
    1  緒 論 1
    1.1課題研究背景 1
    1.2國內外研究現狀 1
    1.3 本論文的結構 4
    2 程序設計目標及策略 5
    2.1程序分析 5
    2.1.1 多線程搜索 5
    2.1.2 數據庫隊列管理 5
    2.1.3 檢索引擎——Lucene 6
    2.2功能點技術分析 6
    2.2.1 Spider如何獲取URL鏈接的獲取 6
    2.2.2 程序結構的選擇 6
    2.2.3利用遞歸構造Spider 6
    2.2.4利用非遞歸構造Spider 7
    2.2.5 Spider程序的隊列 7
    2.2.6全文索引 8
    3 程序設計與實現、測試 9
    3.1 HTTP類及相關類的設計與實現 9
    3.2 蜘蛛程序工作核心類設計與實現 13
    3.2.1 蜘蛛程序中線程的設計 13
    3.2.2 多線程同步 14
    3.3 Spider類及其相關類的實現 15
    3.3.1 ISpiderReportable接口 15
    3.3.2 IWorkloadStorable接口 15
    3.3.3 SpiderSQLWorkload類 16
    3.3.4 SpiderWorker類 16
    3.3.5 SpiderDone類 18
    3.3.6 Spider類 19
    3.4程序測試 20
    3.4.1硬件環境 20
    3.4.2軟件環境 20
    3.4.3測試用例 20
    3.4.4測試結論 21
    4 總結 22
    致 謝 25
    參考文獻 26
    附錄:代碼 27


    相關論文
    本論文在計算機論文欄目,由論文格式網整理,轉載請注明來源www.donglienglish.cn,更多論文,請點論文格式范文查看
    上一篇:教師工作量計算系統設計與實現 下一篇:MDA在企業ERP中的應用可銷商品控制
    Tags:基于 java 網絡 蜘蛛 程序 【收藏】 【返回頂部】
    最新文章
    熱門文章
    計算機論文
    推薦文章

    本站部分文章來自網絡,如發現侵犯了您的權益,請聯系指出,本站及時確認刪除 E-mail:349991040@qq.com

    論文格式網(www.donglienglish.cn--論文格式網拼音首字母組合)提供計算機論文畢業論文格式,論文格式范文,畢業論文范文

    Copyright@ 2010-2018 LWGSW.com 論文格式網 版權所有 蜀ICP備09018832號

    感谢您访问我们的网站,您可能还对以下资源感兴趣:

    论文格式网:毕业论文格式范文