欢迎来到天天文库
浏览记录
ID:33333079
大小:634.67 KB
页数:7页
时间:2019-02-24
《基于lingpipe的煤炭领域科研信息监测分析平台设计与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第32卷第6期计算机应用与软件Vol.32No.62015年6月ComputerApplicationsandSoftwareJun.2015基于Lingpipe的煤炭领域科研信息监测分析平台设计与实现杨锐刘毅张敏张军陈伟(中国科学院国家科学图书馆武汉分馆湖北武汉430071)摘要针对网络环境下文本挖掘技术在煤炭领域科研信息监测分析平台中的应用,首先对基于Web方式的文本挖掘开源工具比较分析,然后利用开源工具从基本特征提取、主题词抽取、自动分类和主题聚类等几个环节展开应用,最后利用TF-IDF算法实现煤炭领域热点主题趋势对比分析,为准确把握煤炭领域热点动态信息提供
2、参考依据。2关键词CarrotLingpipeMahout自动分类主题聚类中图分类号TP301文献标识码ADOI:10.3969/j.issn.1000-386x.2015.06.016DESIGNANDIMPLEMENTATIONOFLINGPIPE-BASEDMONITORINGANDANALYSESPLATFORMFORSCIENTIFICRESEARCHINFORMATIONINCOALFIELDSYangRuiLiuYiZhangMinZhangJunChenWei(WuhanBranchofNationalScienceLibrary,ChineseA
3、cademyofSciences,Wuhan430071,Hubei,China)AbstractInlightoftheapplicationoftextminingtechnologyinnetworkenvironmentonthemonitoringandanalysesplatformforscientificresearchinformationincoalfields,firstwecompareandanalysetheWeb-basedtextminingopensourcetools,andthencarryouttheapplicationu
4、singopensourcetoolsfromacoupleoflinksincludingbasicfeatureextraction,keywordextraction,automaticclassificationandtopicclustering,etc.,andfinallyrealisethecomparativeanalysisonthetrendofhottopicsusingTF-IDFalgorithm.Theseprovidereferencebasisforaccuratelygraspingthehotdynamicinformatio
5、nincoalfields.2KeywordsCarrotLingpipeMahoutAutomaticclassificationThemesclustering发布的内容管理工作模式。大量的文本信息加工需要较多的能0引言源情报专家,绝大多数的非结构化文本信息难以处理。煤炭领域科研信息监测分析平台首先确定选择合适的文本挖掘开源随着国家经济建设的快速进行,能源消耗不断加剧,在能源工具。资源危机的大环境下,如何提高能源资源的利用率,成为解决能1.1文本挖掘开源工具应用情况源危机的重要手段。国家十二五计划提出充分合理利用低阶煤通过调研发现目前有不少优秀的文本挖掘开源工
6、具包括进行油气等能源转化是实现低阶煤清洁高效梯级利用的必然选Weka、Gate、Mallet和OpenNL等等,大部分的文本挖掘开源工具择。这是一个综合多领域、多学科的复杂工程,包含大量的科学主要用于各种算法的执行、分析和评估,偏向于以试验和研究为问题,这些科学问题有机结合互相交叉,对科研工作者提出了巨目的文本数据分析,能够较好融入到B/S结构应用系统的开源[1]大挑战。在这个过程中如何充分利用网络环境为科研用户[2]工具不是太多。通过研究在系统应用方面重点对比了国外提供充分可靠的第一手科研动态和科研政策信息将是煤炭领域三个有特色的基于Web方式的文本挖掘开源工具
7、,分别是波兰科研工作的重要保障与前提。目前煤炭领域科研信息相对独立波兹南工业大学计算机学院智能决策支持系统实验室开发的分散,缺乏系统性和完整性的现状,需要消耗大量的人员、时间Carrot2、Apache软件基金会开发的Mahout和美国国防部高级研和精力进行科研信息的收集整理。本文主要针对网络环境下具究计划局资助Alias公司开发的Lingpipe,以下从应用进行有异构性、开放性特点的文本数据,通过文本挖掘技术对煤炭领比较:域文本资源信息进行有效分析,为获取有价值的科研动态信息2Carrot是基于检索聚类引擎的文本挖掘开源工具,它由一提供参考。组聚类引擎库和支持主
8、题聚类应用
此文档下载收益归作者所有