军事教育主题爬虫的设计与实现_搜刊网-中文学术期刊检索平台

军事教育主题爬虫的设计与实现

来源：互联网 qikanw | 金鹏

【分　类】政治与法律法学
【关键词】主题爬虫　搜索引擎　军事教育主题爬虫
【来　源】互联网
【收　录】中文学术期刊网

正文：

　　摘要由于民用搜索引擎无法在军队中使用，随着部队人员对提供的各项信息服务的要求越来越高、越来越细,基于整个Web 的信息采集越来越力不从心。同时它也无法迅速地搜集到足够的最新的网络信息,也不能满足人们日益增长的个性化需求。本文希望通过开发一个军事教育类主题方面的爬虫以满足用户专门检索军事教育类信息的要求。

　　关键词网络　主题爬虫　搜索引擎　军事教育主题爬虫

　　AbstractAs the search engines can not be in the army for civilian use ，The popularity of Web has been growing rapidly in the last few years. However ,faced with people’s requirementsmore and more rigorous and prolific ,general search engine still can’t satisfy personal need accurately. Based on the entire WebInformation Collection increasingly powerless1 It also failed to promptly collect enough of the latest network information , and itcan not meet the people’s increasing demand for personalized. This paper hopes to develop a mechanical type of reptile themespecifically to meet user information Military Education machinery category requirements.

　　Key wordsnetwork ;focused crawler ; search engine ; militaryeducationfocused crawler l1 引言当今，随着Intemet在国内的迅猛发展，军队正在向现代化建军目标发展，为了使军队更快的向信息化，数字化方向发展，军队都在着手建设自己的信息网，网络信息资源也爆炸般的增长，在军队内的信息服务器上，同样能够获取许多有用的资源。如果没有一个好的搜索引擎，查询起来困难就可想而知。现在www网上基本都是一些商业性的探索引擎，这些引擎深度和广度都很大，有些甚至是整个环球网进行检索。而军队只需要搜索其内部网络即可。因此在军队网中安置一个针对军队信息资源进行搜索的爬虫十分必要。 l2 军事教育主题爬虫的爬行策略搜索引擎中最关键的部分是网络爬虫，它的性能好坏直接影响着搜索引擎的整体性能和处理速度。传统的网络爬虫是按照预先设定的广度优先策略、深度优先策略或这两种策略相结合的方式爬行网页[ 1 ]。网络爬虫的搜索策略与搜索引擎的性质和任务密切相关。决定网络爬虫搜索策略的关键是如何将不相关的网页快速地过滤并删除掉，因为网页过滤的速度和准确性将会直接影响网络爬虫的性能。以何种策略访问Web，成为近年来主题搜索引擎网络爬虫研究的焦点之一。军事教育主题爬虫是按照最佳优先的爬行策略爬行网页即军事教育主题爬行时按照主题相关度优先的爬行策略爬行网页。爬虫从网络上抓取到的新网页在爬行之前都要进行主题相关度分析,与初始种子网页相关度最高的网页被优先爬行,而与初始种子网页不相关或相关度不大的网页则被抛弃。因此与传统网络爬虫相比，军事教育主题爬虫的工作量大大减少、爬行的准确度大大提高。 l3 军事教育主题爬虫的系统实现 3.1 设计思路与总体柜架从设计思路上，构造Spider有两种比较常用的方法。第一种是把Spider设计成一个递归的程序，第二种是编写一个非递归的Spider程序，程序维护一个要访问的网页列表，考虑到Java对数组、队列的包支持较为丰富，实现相对容易，本程序使用了第二种设计思路。

　　程序中总共维护了四个不同的队列，它们的总结如下。每一个这样的队列保存着同一处理状态的URL。

　　等待队列当Spider程序开始处理URL时，它们被传送到这一队列。重要的是同一个URL不能被多次处理，因为这样是浪费的。当一个URL被处理过后，它被移送到或者是错误队列或者是完成队列。

　　运行队列当前正在处理的URL队列。

　　错误队列如果在下载当前网页时发生错误，它的URL将被加入到错误队列。该URL到达这一队列后将不再移入其它队列。一旦网页移入错误队列，Spider程序将不会再对它作进一步处理。

　　完成队列如果在下载网页时没有发生错误，该URL将被加入到完成队列。该URL到达这一队列后将不再移入其他队列。

　　明显，每个得到的URL都只能存在于一个队列中。其状态流程图如下(图1)：

　　评定分数计算公式采用信息检索中常用的词条权值计算方法为

　　TF-IDF 函数

　　Wi,j=Avg(TFi)*(1/(log(nDoc/ni)+1/log(nDoc-1)))

　　Avg(TFi):对词i取其在各文档中的TF值进行平均;

　　nDoc:文档数目;

ni:出现词i的文档个数; 3.2程序结构及具体实现网络爬虫种类很多，如有基于全文搜索的网络爬虫[2]，聚类网络爬虫，主题网络爬虫,基于本体的网络爬虫等。在引入BOT包的基础上，实现了以并发进程方式对指定站点内部网页数据的访问和基于队列的处理，将抓取到的网页数据存储在本地数据库中。程序由四个文件组成：CheckLinks.java;HTMLParse.java;ISpiderReportable.java;Spider.java，程序工程报告如图2：