基于上下文关系的文本分类特征描述方法

基于上下文关系的文本分类特征描述方法

ID:5295351

大小:445.03 KB

页数:4页

时间:2017-12-07

基于上下文关系的文本分类特征描述方法_第1页
基于上下文关系的文本分类特征描述方法_第2页
基于上下文关系的文本分类特征描述方法_第3页
基于上下文关系的文本分类特征描述方法_第4页
资源描述:

《基于上下文关系的文本分类特征描述方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机科学2007Vo1.341%5基于上下文关系的文本分类特征描述方法‘)何中市1.2刘里,(重庆大学计算机学院‘重庆大学语言认知与信息处理研究所2重庆400030)摘要文本特征描述是丈本分类的基拙,其目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向童空间模型(VectorSpaceModel,简记为VSM)中采用“词袋”法来处理丈本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为丈本的结构是完整的,孤立地对待单个词语将丢失文本的内容信息。在实际语言环境中,词语有一定的上下丈“作用城”,“作用城”中的

2、词语对表达同一主题具有一定的共性。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选择方法CBFS及权重计算方法CBFW。该方法是在提取一个初始特征词语集合的基础上,通过用互信息(Mi)来衡量词语在上下文中的依箱度,选取对主题贡献大的词语加入特征集合,同时调整不同贡献的特征词语的权重,从而更加合理地表示文本。关键词特征描述,文本分类,向量空间模型,权重计算BasedFeatureDescriptionModelinChineseTextCategorizationHEZhong-Shi''ZLIULi'(CollegeofComputerl,InstituteofLang

3、nageRecognationandInfonnationProcessing2,ChongqingUniversity,Chongqing400030)AbstractTextfeaturedescriptionisconsideredasthebasicproblemintextclassificationanditaimstousecomputablefeaturetomodeldocuments.Themostusedfeaturedescriptionmethodtreatsatextasasetofwords,whichcalled"bagofwords"model,

4、underthismodelfeatureselectionandweightingconsiderthe"frequency"ofsinglewordonly,igno-ringtherelationofwordsincontext.Butgenerallywordsinacertaincontextfieldcandelivercorrelativemeaningforasametopic.Sothe"bagofwords"modellosesthecontextinformationthatisimportantfactsforimprovingclassifica-tio

5、nprecision.Thispaperpresentsanewfeaturedescriptionmethodbasedontextcontext.First,acommonlyusedfeatureselectionmethodisusedtogetaninitialsetoffeaturewords;secondly,MutualInformation(MI)isusedtocomputetheworddependenceinaconcretecontext,then,thefeaturewordsisselectedaccordingtothedenpendence.Me

6、anwhile,theweightofeachfeatureisadjustedExperimentresultindicatestheefficienceofthenewapproach.Keywor山Featuredescription,Textcategorization,Vectorspacemodel,Weighting上下文本身就是知识;②在自然语言处理的应用间题解决过1引言程中,上下文扮演着解决问题所需信息和资源提供者的重要文本的特征描述是文本分类的一项基础性工作,它研究角色。因此,当前文本分类中,采用“词袋”方式来考虑每一个的是用什么样的方法和模型来表示文章的主题

7、思想。这个描单独的词语,本来就丢失了词语间的这种关系,因此有必要把述一方面要能很好地概括文章的主要内容,另一方面要方便单个特征词语和它“作用域”中的词语同时加以考虑。计算机进行计算。目前,基于矢量的方法即VSM得到了广通常情况下,上下文的选取是基于核心词左右一定范围泛的应用,它用若干个特征项及其权重来表示一篇文档。在进行的,这个固定的范围被称为“窗口”,表示为〔a,b],即核心这个模型中,有两个主要影响描述准确度的因素:一个是特征词语左a个位置和右b个位置的范围。文〔1〕分别对中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。