欢迎来到天天文库
浏览记录
ID:33501767
大小:561.44 KB
页数:47页
时间:2019-02-26
《文本主题段落内部概念关系抽取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学硕士学位论文文本主题段落内部概念关系抽取技术研究姓名:蒋建慧申请学位级别:硕士专业:计算机软件与理论指导教师:陈玉泉20090201文本主题段落内部概念关系抽取技术研究 摘要随着计算机的普及和互联网的迅猛发展,网络上文本信息的数量快速增长,然而人们却很难迅速地找到所需的信息。为了改变这种尴尬的局面,迫切需要一些自动化的工具帮助人们在海量信息中迅速而准确地找到用户真正需要的信息,信息抽取技术就是在这一背景下产生出来的。互联网上信息又大多以文本形式存在,而文本从线性和层次角度上可以分为若干
2、个段落主题。由于标引段落主题的概念之间存在某种关系,作者抽取出段落主题概念及其之间的关系,就为基于段落主题的信息检索以及文本自动摘要工作提供了一个新的途径。本文的研究工作是基于主题段落的概念和概念关系抽取技术研究。主题段落概念及其关系抽取简单来说,就是从文本段落内部挖掘出能反映文本内容的若干个主题概念,并构建出这些概念之间的关系。首先为了抽取出标引文本主题的概念,我们通过词聚类的方式获取概念,在构建向量空间模型(VSM)时,原本的以词形为基础的向量空间模型就变成了概念空间模型。然后利用知网中概念词之
3、间的相似度,加权计算出向量空间模型中各个分量的权值。 随后,不同于以往的词频加权算法,本文提出了基于词语量化关系的主题概念抽取算法,通过定量的分析概念之间的相关信息,抽取出更能准确标引文本主题的概念。首先利用一部中文词典《现代汉语规范词典》——一种非结构化的数据源作为背景知识,来挖掘词语之间的量化关系。然后利用这种量化关系为概念向量模型中概念分量构建相关向量,再通过对概念相关向量和权值的计算,得出每个概念对于文本的主题重要度,最终依据重要度抽取出能够标引文本主题的概念。 III对于抽取出来的主题概念
4、,使用基于特征向量的机器学习方法抽取出主题概念关系。选取主题概念上下文的词语和词性作为特征向量,抽取出比较常见的若干种概念关系。 关键词:主题概念,词语量化关系,概念向量模型,概念关系 IVResearchofconceptualRelationExtractionBasedOnTopic-textParagraphABSTRACTWiththequickexpandingoftheInternetinformationresource,thenumberoftextsincreasesrapidl
5、y.Peoplehardlycanfindinformationwhichtheyneedquickly.Inordertosolvetheproblem,weurgentlyneedanautomatedfacilitytohelpusersmakeuseofcurrentInternetinformationtogainreallyusefulinformation.Researchoninformationextractionemergesunderthisbackground.Mostoft
6、heInternetinformationexistsintheformoftextwhichcouldbedividedintoseveraltopic-textparagraphs.Subjectconceptsandconceptrelationsextractionprovidesanewwayforinformationretrievalbasedonparagraphtopicsandtextautomaticabstraction.Theresearchworkofthispaperi
7、saresearchontopicconceptualandconceptualrelationextraction.Insimpleterms,weextractsomeconceptwhichcanindextext-paragraphtopicandconstructthoseconceptualrelations.Inordertoextractsubjectconcepts,atfirst,bywordclustering,weestablishaconceptualvectorspace
8、model.Basedonthismodal,weightsofconceptscanbecarriedoutintermsofconceptualsemanticsimilarityfromhownet.Then,ourpaperpresentsanovelalgorithmaboutchoosingsubjectconceptsbasedonconceptualquantifiedrelations.Wecanextractmoreprecisesubjectco
此文档下载收益归作者所有