欢迎来到天天文库
浏览记录
ID:38144623
大小:390.47 KB
页数:5页
时间:2019-06-01
《基于多因素中文文本主题自动抽取方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第20期计算机技术与发展v01.20N0.72010年7月COMPUTERTECHNOLGY3YANDDEVELOPMENTJu1.2010基于多因素的中文文本主题自动抽取方法刘金岭,谈芸,李健普,袁娜(淮阴工学院计算机工程学院,江苏淮安223003)摘要:提出了一种基于多因素的文本主题的提取方法,并着重讨论了相应的权值体系。根据概念间的相互关系,对同义概念进行语义归并和上下位概念进行语义聚焦。对于给定的文本,先进行特征词抽取进而生成代表主题概念的重要词汇。综合语句所在位置、语句中的标题、语句中所含重要词汇等多因素构造语句权值表达式,在此基础上,采用主题句选
2、择算法保证每一个主题句被选中,同时解决了主题句的去重问题。实验结果表明,该方法具有较高的抽准率。关键词:主题句;主题抽取;文本主题;重要词汇;语句权值中图分类号:TP18l文献标识码:A文章编号:1673—629X(2010)07—0072一o4AutomaticExtractionMethodofChineseText1]hemeBasedonMulti·--FactorLIUJin-ling,TANYun,LIJian-pu,YUANNa(Dept.ofComputerEng.,HuaiyinInstituteofTechnology,Huaian223
3、003,China)Abs:Amulti—factorbasedonthethemeofthetextextractionmethodsispresented.andparticularlyd~crihedthealgorithmandthecorrespondingwe~htaystera.Analysisoftheinterrelationbetweentheconceptwerethesynonymymergingandthesupe~orconceptandsub—conceptweresemanticfocusing.Foragiventext。i
4、tsfeatureswereextractedfirstlyandtherepresentativeofthethemeofge~erat·ing8nimportantwords.C~nsolidateds~tementlocationofthestatementinthetitle,keywordsandotherstatementscontainedintheStat~tthattherighttoconstructthevalueofmulti—factorexpression.Onthisbasis,theuseoftopic.~ntencesele
5、ct~nalgorithmtoel~ul'~thateverysentanceofathemeisselected.Meanwhile.removetheredundantsentencesfromcandidatesoftopicsentences.Theex·perimentalresultsindieatethatthemethodhashigherprecision.Key:subjects即t朗ce;subjectextraction;textsubject;importantwords;sentenceweightO引言分析,建立词之间的语义关联
6、,进一步生成代表主题概文本主题抽取对快速浏览和查询文本资料有着非念的种子词类。研究表明,解决同一概念的不同语言常重要的意义。一般地,主题抽取的方法大都是利用表达形式语义的关联问题,在目前可能达到的目标也各种加权算法,并计算关键词对文本主题的重要程度,许只能通过机器学习,对原始语料中概念之间语义关选定那些重要程度大的关键词⋯1。目前国内外的相关联进行挖掘【7l。研究中,有些方法是利用词汇频率来提取文本主题l1;基于以上原因,文中首先从文本中不同词汇之间而文献[2]是从语言理解的角度进行了主题抽取;文献的语义关联出发,处理文本词汇的同义关系、上下位关[3,4]则
7、是利用关键词匹配和关键词统计的方法抽取系及文本语句间的相似关系。进而在分析文本语句时主题,所有这些方法都没有考虑表达主题的不同用词根据“兼顾各个方面因素,同时又有所侧重”的原则,综之间的语义关联。在国外研究中也涉及到了这方面的合多方面的因素提出了基于语句权值体系的计算方内容,文献[5]是利用使用TF*PDF算法从日文新闻法。为提高文本主题句选择算法的准确率打下了坚实中提取主题;而文献[6]则利用相关度对词的共现进行的基础。收稿日期:20o9—11—25;修回日期:2010一O2—161语句的权值基金项目:淮安市科技项目(H_A(9o61);江苏省大学生实践创
8、新训一般来说,对文本的主题句抽取主要完成如下两练项目
此文档下载收益归作者所有