欢迎来到天天文库
浏览记录
ID:10164501
大小:28.50 KB
页数:6页
时间:2018-06-12
《浅谈企业竞争情报信息采集器分析与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、浅谈企业竞争情报信息采集器分析与设计[摘要]随着全球经济一体化步伐的加快,国内和国际市场竞争日益激烈,企业为了使自身能够在激烈的市场竞争中处于有利的地位,更加关注竞争环境、竞争对手、竞争态势、竞争策略等相关信息,情报信息的竞争已经成为企业在市场竞争中的一个重要关注面[1]。据统计,近些年竞争情报分析中所需的90%信息来源于互联网,但互联网上各类信息都在以几何级数增长,使得通过传统的情报信息采集器从互联网中获取的信息中包含着大量的与企业无关的信息,这些信息无疑会加大系统负担,因此,本文开展对企业竞争情报信息采集器的研究是必要的。本文在对
2、开源搜索引擎项目Nutch研究的基础上,设计并实现了企业竞争情报信息采集器。[关键词]企业竞争情报,信息采集器,Nutch中图分类号:G350文献标识码:A文章编号:1009-914X(2014)24-0347-011.引言6随着Internet的高速发展,互联网已经成为人们获取信息的主要来源,以Google、百度等为代表的通用信息检索工具,极大地方便了我们从互联网上获取所需的信息。然而,企业更关心与自身息息相关的主题领域信息,因此也希望搜索引擎采集到的信息具有主题性、准确性、时效性,在当前Web信息爆炸式增长的环境下,通用搜索引擎对
3、于这些要求就显得力不从心了。2.总体架构分析企业竞争情报信息采集器是在通用搜索引擎的基础上发展起来的,它采用了企业竞争采集技术对互联网中的信息进行采集,采集器将选择性地搜寻那些与预先定义好的主题相关的页面。企业竞争情报系统中的情报信息采集器应能够根据企业需求,对企业关心的主题信息进行采集,本文根据实际需求。企业竞争情报信息采集器的体系结构具体分析如下:(1)Spider是任何搜索引擎不可缺少的部分,它通过各种Web协议自动采集URL所对应的页面内容。本文采用开源搜索引擎Nutch中的Crawler作为Spider对待采集队列中的URL
4、进行采集。(2)页面分析,对采集到的页面进行内容和链接抽取,企业竞争情报信息采集器继承了Nutch插件机制,可根据采集的文件类型调用相应文件解析插件,如对于HTML、PDF、WORD分别调用HtmlParser、PdfParser、MSWordParser对页面内容进行解析和链接的抽取。6(3)基于主题树的分类插件,系统中情报信息的加工、浏览、推荐等操作都是基于主题树方式,主题树中的不同节点代表着不同的情报类别,因此,应对采集到的页面基于主题树进行分类。将对基于主题树的分类插件进行设计,通过该插件可对页面内容进行基于主题树的分类,并返
5、回在分类过程中获得的最大相似度值。3.关键功能设计众所周之,英文单词与单词之间以空格分割,而中文是以字为单位,中文文档中词与词之间并没有明显的边界标志[5]。把中文文档中的汉字序列分割成有意词的序列就是中文分词,中文分词是对中文文档进分类的基础和关键。Nutch提供了搜索引擎的全部工具,但是它本身并不支持中文分词,为了企业竞争情报信息采集器能够对中文文档正确处理,因此,在对Nutch插件机制研究的基础上,设计并实现了中文分词插件,为企业竞争情报信息采集器提供中文分词的支持;设计并实现了基于主题树的分类插件,完成对主题信息和链接过滤。3
6、.1中文分词功能系统是在对Nutch插件机制研究的基础上,设计并实现了中文分词功能的。Nutch将可扩展部分设计成为插件扩展点,每个扩展点对应Nutch中的一个抽象类,通6过插件扩展Nutch时,须针对某个扩展点进行扩展,即扩展插件必须继承这个扩展点的抽象类,并对抽象类中方法进行实现,以完成新增功能[7]。Nutch在实际运行时,首先通过配置文件将所有注册的插件加载到内存中,当系统运行到某个扩展点时,通过工厂模式读取配置文件中插件属性值以获得此扩展点的所有插件,然后再根据处理的对象调用将此对象的实例化并进行处理。企业竞争情报信息采集器
7、的中文分词插件是通过对NutchAnalyzer扩展点进行扩展实现的。若使中文分词插件能够正常工作还需要通过以下五个方面的辅助工作:(1)Nutch通过扩展NutchAnalyser实现对多语言分词支持,而插件languageidentifier是对文档进行语言标识,Nutch对文档进行分词时需根据文档的语言标识调用相应的语言分词插件。为使得中文分词插件在恰当时能被调用,应为系统加入中文语言标示。首先,通过插件languageidentifier的NGramProfile类可生成后缀名为ngp文件,为了使其能够对中文文档进行正确识别,
8、该类的输入应为包含一定数量中文词汇的文本,经训练后生成zh.ngp文件。(2)中文分词插件编译,通过编译工具对中文分词插件的进行编译,并将编译好的中文分词插件添加到系统开发构建路径中。6(3)中文分词插件注册,当对中文分
此文档下载收益归作者所有