欢迎来到天天文库
浏览记录
ID:21837373
大小:132.50 KB
页数:14页
时间:2018-10-25
《命名实体情报挖掘方法研究及其在图书馆中的发展》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、命名实体情报挖掘方法研究及其在图书馆中的发展袁慧马建霞中国科学院兰州文献情报中心中国科学院大学摘要:各学科领域内相关命名实体情报挖掘是文本处理的重要方法之一。精确的相关命名实体情报挖掘是后续实体关系、事实抽取或文本分类等工作的基础。本文梳理和总结了命名实体的定义及特征,对基于不同方法的命名实体情报挖掘方法和系统研究现状进行了剖析,指出了命名实体情报挖掘在自然语言处理、图书馆知识管理及其他领域的应用,最后从构建命名实体资源库、研究不依赖资源库的算法和知识获取的自动化研宄等方面提出了建议。关键词:命名实体;情报挖掘;信息抽取;信息检索;知识管理;作者简介:袁慧(1993-),女,硕士研究
2、生,研究方向:情报分析技术;作者简介:马建霞(1972-),女,中国科学院兰州文献情报中心学科咨询部主任、研宄馆员、硕士生导师,研究方向:情报分析技术。majx@lzb.ac.cn收稿日期:2017-02-09基金:国家重点研发计划“生态技术评价方法、指标体系及全球生态治理技术评价”项目的子项目“生态技术评价平台与集成系统研发”课题(项目编号:2016YFC0503706)ResearchontheMethodofNamedEntityInformationMiningandItsDevelopmentintheLibraryYuanHuiMaTian-xiaAbstract:Inf
3、ormationminingofrelatednamedentitiesinvariousfieldsisoneoftheimportantmethodsfortextprocessing.Accuratenamedentityinformationminingisthebasicworkoffollowingentityrelation,factextraction,textclassificationandsoon.Inthisarticle,thedefinitionandcharacteristicsofnamedentitiesarcdescribed.Thevariant
4、methodsunderlyingmostNERsystemaresketched.TherichapplicationinNLP,libraryknowledgemanagementandotherfieldsarepointed.Andsomesuggestionsonconstructingthenamedentityresourcelibrary,studyingthealgorithmofindependentrepositoryandautomationresearchofknowledgeacquisitionaregiven.Keyword:NamedEntity;I
5、nformationMining;InformationExtraction;InformationRetrieval;KnowledgeManagement;Received:2017-02-09目前,在各个领域屮产生的相关文献和报告等电子文本呈现出海量丑冗杂的特点,而对快速增长的文本信息,把握用户感兴趣的内容,识别和抽取特定内容进行分析,获取规律和隐含的知识以及特定的需求信息,从而辅助科研分析和评价,逐渐成为科研人员、科研管理者、科技政策制定和决策者关注的焦点,也成为图书馆领域中知识管理的新方法,由此可见,加强文本情报挖掘己成为了信息化社会屮知识挖掘的重点。实现上述文本处理过程可
6、能涉及到信息抽取、自动文摘和信息检索等技术,通过这些技术获取文本中的隐含情报和知识,命名实体情报挖掘是其基础步骤。命名实体情报挖掘的结果会影响到后续对相关文木的一系列处理,如,信息抽取、自动文摘、分类聚类和文本挖掘等。包括信息抽取中实体关系的识别和抽取都需要事先识别相关的命名实体,因此,对给定文本进行处理和分析都需要命名实体的情报挖掘。由此可见,命名实体情报挖掘己逐渐成为对相关领域内文本进行处理和分析的重要基础,通过分析目前命名实体情报挖掘方法和系统的研宄现状,结合其应用情况分析命名实体情报挖掘发展方面的建议,将有助于促进研宄的发展,提高文本处理和挖掘的能力。1命名实体的定义及特征1
7、.1命名实体的定义“命名(Named)”被Kripke£il定义为固定指示词(RigidDesignators),其中包括专有名称以及确定的自然生物物种和物质术语等。首次进行命名实体情报挖掘的是RauUl等发表在1991年第7届IEEE人工智能应用会议上的“抽取和识别公司名称”一文。而后命名实体评测在1996年被引入MUC-6,[3]MUC-6中命名实体情报挖掘的目标就是在给定文本中识别出三大类(实体类、时间类和数字矣)、七小类(机构名、地名、人名、日期、
此文档下载收益归作者所有