|  客服中心  |  合作联系
搜刊网
论文下载
您当前位置
首页 > 论文下载 > 政治与法律法学 > 军事教育主题爬虫的设计与实现
军事教育主题爬虫的设计与实现
来源:互联网 qikanw | 金鹏
【分  类】 政治与法律法学
【关 键 词】 主题爬虫 搜索引擎 军事教育主题爬虫
【来  源】 互联网
【收  录】 中文学术期刊网
正文:

  摘 要 由于民用搜索引擎无法在军队中使用,随着部队人员对提供的各项信息服务的要求越来越高、越来越细,基于整个Web 的信息采集越来越力不从心。同时它也无法迅速地搜集到足够的最新的网络信息,也不能满足人们日益增长的个性化需求。本文希望通过开发一个军事教育类主题方面的爬虫以满足用户专门检索军事教育类信息的要求。

  关键词网络 主题爬虫 搜索引擎 军事教育主题爬虫

  AbstractAs the search engines can not be in the army for civilian use ,The popularity of Web has been growing rapidly in the last few years. However ,faced with people’s requirementsmore and more rigorous and prolific ,general search engine still can’t satisfy personal need accurately. Based on the entire WebInformation Collection increasingly powerless1 It also failed to promptly collect enough of the latest network information , and itcan not meet the people’s increasing demand for personalized. This paper hopes to develop a mechanical type of reptile themespecifically to meet user information Military Education machinery category requirements.

  Key wordsnetwork ;focused crawler ; search engine ; militaryeducationfocused crawler l1 引言当今,随着Intemet在国内的迅猛发展,军队正在向现代化建军目标发展,为了使军队更快的向信息化,数字化方向发展,军队都在着手建设自己的信息网,网络信息资源也爆炸般的增长,在军队内的信息服务器上,同样能够获取许多有用的资源。如果没有一个好的搜索引擎,查询起来困难就可想而知。现在www网上基本都是一些商业性的探索引擎,这些引擎深度和广度都很大,有些甚至是整个环球网进行检索。而军队只需要搜索其内部网络即可。因此在军队网中安置一个针对军队信息资源进行搜索的爬虫十分必要。 l2 军事教育主题爬虫的爬行策略搜索引擎中最关键的部分是网络爬虫,它的性能好坏直接影响着搜索引擎的整体性能和处理速度。传统的网络爬虫是按照预先设定的广度优先策略、深度优先策略或这两种策略相结合的方式爬行网页[ 1 ]。网络爬虫的搜索策略与搜索引擎的性质和任务密切相关。决定网络爬虫搜索策略的关键是如何将不相关的网页快速地过滤并删除掉,因为网页过滤的速度和准确性将会直接影响网络爬虫的性能。以何种策略访问Web,成为近年来主题搜索引擎网络爬虫研究的焦点之一。军事教育主题爬虫是按照最佳优先的爬行策略爬行网页即军事教育主题爬行时按照主题相关度优先的爬行策略爬行网页。爬虫从网络上抓取到的新网页在爬行之前都要进行主题相关度分析,与初始种子网页相关度最高的网页被优先爬行,而与初始种子网页不相关或相关度不大的网页则被抛弃。因此与传统网络爬虫相比,军事教育主题爬虫的工作量大大减少、爬行的准确度大大提高。 l3 军事教育主题爬虫的系统实现 3.1 设计思路与总体柜架从设计思路上,构造Spider有两种比较常用的方法。第一种是把Spider设计成一个递归的程序,第二种是编写一个非递归的Spider程序,程序维护一个要访问的网页列表,考虑到Java对数组、队列的包支持较为丰富,实现相对容易,本程序使用了第二种设计思路。

  程序中总共维护了四个不同的队列,它们的总结如下。每一个这样的队列保存着同一处理状态的URL。

  等待队列 当Spider程序开始处理URL时,它们被传送到这一队列。重要的是同一个URL不能被多次处理,因为这样是浪费的。当一个URL被处理过后,它被移送到或者是错误队列或者是完成队列。

  运行队列 当前正在处理的URL队列。

  错误队列 如果在下载当前网页时发生错误,它的URL将被加入到错误队列。该URL到达这一队列后将不再移入其它队列。一旦网页移入错误队列,Spider程序将不会再对它作进一步处理。

  完成队列 如果在下载网页时没有发生错误,该URL将被加入到完成队列。该URL到达这一队列后将不再移入其他队列。

  明显,每个得到的URL都只能存在于一个队列中。其状态流程图如下(图1):

  评定分数计算公式采用信息检索中常用的词条权值计算方法为

  TF-IDF 函数

  Wi,j=Avg(TFi)*(1/(log(nDoc/ni)+1/log(nDoc-1)))

  Avg(TFi):对词i取其在各文档中的TF值进行平均;

  nDoc:文档数目;

ni:出现词i的文档个数; 3.2程序结构及具体实现网络爬虫种类很多,如有基于全文搜索的网络爬虫[2],聚类网络爬虫,主题网络爬虫,基于本体的网络爬虫等。在引入BOT包的基础上,实现了以并发进程方式对指定站点内部网页数据的访问和基于队列的处理,将抓取到的网页数据存储在本地数据库中。程序由四个文件组成:CheckLinks.java;HTMLParse.java;ISpiderReportable.java;Spider.java,程序工程报告如图2:

  图2

  用TF-IDF 函数算出各个词语的权值,最终得到全部词的权值wordWeightOfAllDocument

  public class segmenter {

  public TreeMap zhwords;//用Treemap形式定义,带标签,方便对应查找

  //下面定义的是一些统计词项与词频的链表

  public ArrayList wordSum ;

  public ArrayList wordCount;

  public ArrayList wordAll;

  public ArrayList wordCountAll;

  //根据选取网页的编码类型,选择不同的词库文件。

  String newword = null;

  try {

  InputStream worddata = null;

  if (charform == SIMP) {

  worddata = getClass().getResourceAsStream("simplexu8.txt");

  } else if (charform == TRAD) {

  worddata = getClass().getResourceAsStream("tradlexu8.txt");

  } else if (charform == BOTH) {

  worddata = getClass().getResourceAsStream("bothlexu8.txt");

  }

  //wordSum ; wordCount; wordAll; wordCountAll; wordCountMax;这些链表都是为了分词后统计出每个词的tf值和IDF值,最后根据公式算出每个词语的权值!

  //这个是tf值的计算并记录文件

  public ArrayList getTfValue(String args){

  int tmpIndex;

  BufferedWriter fileOut;

  ArrayList tmpArrayList = new ArrayList(3);

  File tmpTfFilePath=new File("tf");

  tmpTfFilePath.mkdir();

  try{

  fileOut=new BufferedWriter ( new FileWriter (args+".tf"));

  for(int k = 0;k

  tmpIndex=k;

  doubletmp = (double)(Integer)wordCount.get(tmpIndex)).intValue()/(double)wordCountMax;

  Double dTmp = new Double(tmp); tmpArrayList.add(dTmp/*(Object)tmp*/);

相关推荐
热门期刊
意林《意林》
《意林》杂志,于1979年经国家新闻出版总署批准正式创刊,CN:22-1361/I,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:青春智囊、特别...
西南边疆民族研究《西南边疆民族研究》
《西南边疆民族研究》(半年刊),由云南大学西南边疆少数民族研究中心主办。创刊于2003年。2008年3月,经中文社会科学引文索引指导委员会第七次会议评审并报教育部批准...
中国海事《中国海事》
《中国海事》杂志,于1992年经国家新闻出版总署批准正式创刊,CN:11-5352/U,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:国际交流、...
经营者(汽车商业评论)《经营者(汽车商业评论)》
《经营者》杂志,于2006年经国家新闻出版总署批准正式创刊,CN:50-1018/F,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:口述历史、生...
黄金地质《黄金地质》
《黄金地质》本刊面向经济建设主战场,为黄金地质勘察、科研和生产服务。宣传勘察和科技成果,传播科技信息,介绍新理论、新技术、新方法。不断提高刊物的质量和水平,...
数学之友《数学之友》
《数学之友》杂志,双月刊,于1987年经国家新闻出版总署批准正式创刊,由江苏省教育厅主管,南京师范大学;南京数学学会主办的学术性刊物,本刊在国内外有广泛的覆盖面,题材...
友情链接
中教杯 国家新闻出版总署 中国知网 万方数据 维普网 中国科学院 中国国家图书馆 央视英文版 中国留学网 中青网 中国国家人才网 中国经济网 中国日报网 中国新闻网 中国学术期刊网
关于我们
平台简介
诚聘英才
企业文化
竞争优势
版权信息
服务条款
客服承诺
常见问题
版权声明
合作加盟
期刊加盟
广告服务
联系我们
网站导航
期刊大全
论文下载
课题申报
学术会议
编辑QQ
编辑联络
2007-2023
中文学术期刊检索机构
bianjibu777@qq.com
联系我们

版权所有©2007- 2023 中国学术期刊网(qikanw.com) All Rights Reserved 京ICP备2021008252号
本站是学术论文网络平台,若期刊网有侵犯您的版权,请及时与期刊网客服取得联系,联系信箱: bianjibu777@qq.com    
中国学术期刊网