欢迎来到天天文库
浏览记录
ID:53732880
大小:349.88 KB
页数:5页
时间:2020-04-20
《医学新闻关键词自动提取策略.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、中华医学图书情报杂志2014年4月第23卷第4期ChinJMedLibrInfSci,Vo1.23No.4April,2014·13·DOI:10.3969/j.issn.1671-3982.2014.04.003·专题·医学新闻关键词自动提取策略何晓阳,张精理。丁婷【摘要]提出了将医学叙词表MeSH词汇加入到通用分词表中进行分词,并利用MeSH词汇结合词长、词语所在位置加权实现医学新闻网页的关键词自动提取策略。作者随机选取了lO家网站100篇医学新闻进行人工关键词标引,并采用机器标引与人工标引比照的方式进行验证的结果表明,关键词抽取精
2、度达0.34,召回率达0.30,实验证明该策略可行。[关键词]关键词;自动提取;医学新闻;叙词表;MeSH;生物医学;医学术语;关键词标引;主题标引;自动标引[中图分类号]G254.23;R-058[文献标志码】A[文章编号]1671—3982(2014)04—0013—05StrategiesforautomaticextractionofkeywordsfrommedicalHewsHEXiao-yang,ZHANGJing-li,DINGTing(LibraryofThirdMilitaryMedicalUniversity,Ch
3、ongqing400038,China)[Abstract]ThestrategiesforautomaticextractionofkeywordsfrommedicalnewswereputforwardbyaddingtheMeSHtermsintothegeneralclassificationtableincombinationwiththelengthofMeSHtermsandlocation-weightedMeSHterms.Thekeywordsrandomlyselectedfrom100papersreporti
4、ngmedicalnewson10Websiteswerein-dexedandverifiedbymachineindexing.Theextractionaccuracywas0.34andtherecallratewas0.30,showingthatthestrategiescanbeusedforautomaticextractionofkeywordsfrommedicalnews.[Keywords]keywords;Automaticextraction;Medicalnews;Thesaurus;MeSH;Biomed
5、icine;Medicalterms;keywordsindexing;Subjectindexing;Automaticindexing1关键词提取方法分析、句法分析、语义分析、篇章分析等方法,提取关键词是文献中与主题内容关联度较高的词出能反映文本主题的词汇作为特征项r,而汉语由汇集合,它在揭示文献内容方面有着不可替代的作于其无显式的词边界,其关键词的自动提取较英文用,因而在文档管理、文本聚类分类、信息检索等多文本处理更难;第三类为混合方法,即综合利用领域得到应用,并沿用至今。语言分析和统计学习方法,或加入启发式知识(如通用的文献关键
6、词自动提取方法大体分三类:词的位置、词长、HTML标记等)来提高关键词的提第一类为统计学习方法,其中最常用的为TF-IDF算法取精度¨o.。或在此基础上的改进[],此外还有PAT-TREE]、除上述问题外,专业领域关键词的自动提取还最大熵模型]、复杂网络[6等方法;第二类为语言需解决专业词组的识别与提取问题,通常是在通用分析方法,通常利用自然语言处理技术,通过词法分词表中加入一定数量的专业词汇。除此之外,专业领域文献的关键词自动提取还可通过赋词法获[基金项目]中国人民解放军总后勤部“全军医学信息资源共建共享得文档特征项,即利用现有或机器
7、辅助专家构建叙服务体系建设”(~112011]116号)项目成果之一。词词典、知识库、本体等资源获取文档关键词。该[作者单位】第三军医大学图书馆,重庆400038方法获得的关键词比较规范,专业表达性强,还可[作者简介]何晓阳(1971一),男,四川南部人,副教授,副馆长,发表进行语义推理¨。论文2O余篇。本文提出的方法为二者的结合,即将规范化的-14·中华医学图书情报杂志2014年4月第23卷第4期ChinJMedLibrInfSei,Vo1.23No.4April,2014医学叙词加入通用分词表中进行分词,并结合词题词,还有该主题词所
8、对应的树状结构号以及多个长、词语所在位置加权来实现医学新闻网页的关键款目词等信息可资利用,便于提高查准率。但目前词自动提取。国内少有EMTREE的中文翻译版本,仅有MeSH的2关键词表的构建中文译本,可大幅
此文档下载收益归作者所有