基于crfs的领域爆发词识别的研究与实现

基于crfs的领域爆发词识别的研究与实现

ID:33532039

大小:1.58 MB

页数:5页

时间:2019-02-26

基于crfs的领域爆发词识别的研究与实现_第1页
基于crfs的领域爆发词识别的研究与实现_第2页
基于crfs的领域爆发词识别的研究与实现_第3页
基于crfs的领域爆发词识别的研究与实现_第4页
基于crfs的领域爆发词识别的研究与实现_第5页
资源描述:

《基于crfs的领域爆发词识别的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、情报科学·业务研究·第32卷第1期2014年1月基于CRFs的领域爆发词识别的研究与实现1,21逯万辉,马建霞(1.中国科学院国家科学图书馆兰州分馆/中国科学院资源环境科学信息中心,甘肃兰州730000;2.中国科学院研究生院,北京100080)摘要:通过对爆发词识别问题的研究和剖析,本文采用了基于条件随机场模型的方法进行爆发特征提取,在此基础上设计了频次、频率和词频文档比三个指标进行计算,选取镍钴产业专利文本为例进行了领域爆发词识别实验,并实现了爆发词识别系统原型的开发。关键词:爆发词;爆发特征;条

2、件随机场;原型系统中图分类号:G254.9文献标识码:A文章编号:1007-7634(2014)01-89-05ResearchandImplementationontheDomainBurstWordRecognitionBasedonCRFs1,21LUWan-hui,MAJian-xia(1.LanzhouBranchoftheNationalScienceLibrary/ScientificInformationCenterforResourcesandEnvironment,ChineseA

3、cademyofSciences,Lanzhou730000,China;2.GraduateUniversityofChineseAcademyofSciences,Beijing100080,China)Abstract:Onthebaseofresearchandanalysistheproblemofburstwordrecognition,thispaperextract⁃edtheburstfeaturebasedonCRFmodel,thendesignedthreeindexestoc

4、alculatetheweightofburstword,developedaprototypesystemandexperimentedonpatenttextofNi/Co.Keywords:burstword;burstfeature;CRFs;prototypesystem爆发词的描述可知,关于网络环境下爆发词的识1引言别,需要进行候选爆发特征识别、标记特征出现的时间、统计并得到爆发词等三个部分。在信息化高速发展的今天,人们获取信息的途爆发词识别作为突发监测方法的基础性工作,径和方式越来越多、

5、获得的信息量倍增,但却容易正确识别爆发词对突发主题监测和话题追踪具有卷入无序的信息海洋中,难以获得有用的知识,因重要作用,但也是整个工作的难点和重点所在。除此,探索基于人工智能的自动知识发现技术一直是了应用于话题检测与跟踪、舆情监控等领域之外,目前的研究热点,并出现了话题检测与追踪、舆情在情报分析与应用方面,基于文本内容分析的知识【2】监控等众多新兴研究领域,将网络信息的处理问题发现研究也是一种重要的情报研究方法,其基础转化为通过程序的方法自动识别话题及其演变的工作也是文本词汇的识别和处理。识别科技爆

6、发过程。爆发词作为信息意图的最直观表达,正确识词可以作为技术预测的前期准备和基础性工作,对别并处理爆发词对认识事件进展和了解事物变化研究热点和研发机会的发现有重要作用,因此,正有重要的借鉴意义。爆发词是指那种在一段时间确、有效地捕捉潜在科技爆发词对科学研究趋势预【1】测、研究热点和研发机会发现、科技监测等均有重大量出现的有意义的代表话题走向的词。从有关收稿日期:2012-05-12基金项目:中国科学院西部之光联合学者项目“基于计算情报方法的甘肃省战略新兴产业竞争发展研究”项目作者简介:逯万辉(1987

7、-),男,河南人,报学硕士生,主要从事信息抽取与数据挖掘研究.-89-INFORMATIONSCIENCE·ProfessionResearch·Vol.32,No.1January,2014要的研究意义和现实意义。从以上关于主题探测的系统中可以看出:主题爆发词识别的基础是词的处理和计算,词单元识别目前都通过主题词的识别来表现,主题探测要作为爆发特征的最基本特征,也是携带信息的最小以主题词的识别为基础,主题词的获取又需要正确语义单元,处理中只需要在文本切分的基础上剔除标识领域术语等特征词汇,因此,爆发

8、词的识别也无意义的停用词即可获得特征词,但是针对具体领可以说是主题识别的一部分、和主题识别是一个相域内容,单个的词语已不能表达完整的语义信息,互交织的问题,其共同的基础点就是都需要以正确更多的需要从领域术语上探讨该领域知识的演变标识特征词汇为基础。但爆发词识别是以词语为和进化,因此就需要进行未登录术语的自动识别,研究和处理对象,更强调对正确词汇识别的依赖即在词语的基础上探索携带完整信息的特征词或性,正确获取特征词汇对爆发词识别结果具有重要短语。本文将研究

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。