面向社区问答中文短文本分类算法探究

面向社区问答中文短文本分类算法探究

ID:6053274

大小:37.50 KB

页数:15页

时间:2018-01-01

面向社区问答中文短文本分类算法探究_第1页
面向社区问答中文短文本分类算法探究_第2页
面向社区问答中文短文本分类算法探究_第3页
面向社区问答中文短文本分类算法探究_第4页
面向社区问答中文短文本分类算法探究_第5页
资源描述:

《面向社区问答中文短文本分类算法探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、面向社区问答中文短文本分类算法探究  〔摘要〕为解决社区问答系统中的问题短文本特征词少、描述信息弱的问题,本文利用维基百科进行特征扩展以辅助中文问题短文本分类。首先通过维基百科概念及链接等信息进行词语相关概念集合抽取,并综合利用链接结构和类别体系信息进行概念间相关度计算。然后以相关概念集合为基础进行特征扩展以补充文本特征语义信息。实验结果表明,本文提出的基于特征扩展的短文本分类算法能有效提高问题短文本分类效果。〔关键词〕社区问答;维基百科;特征扩展;短文本分类〔中图分类号〕G254〔文献标识码〕A〔文章编号〕1008-0821

2、(2013)10-0070-05社区问答系统是一种基于Web的问答系统,如百度知道、yahoo!15Answers等。作为一种具有开放性、交互性特点的知识共享模式,它能够更好的帮助人们利用互联网的资源来获取和分享信息。对用户提出的问题进行分类是社区问答系统服务的一个主要任务,将用户提问发布到合适的类别,可以方便其他用户发现和回答该提问,也有助于对系统积累的海量问答进行知识挖掘和兴趣推荐[1]。由于问题文本一般较短、特征稀疏,且中文文本特有的语言结构,所以传统的基于长文本的分类方法对于短文本并不能取得令人满意的效果。因此,研究中

3、文短文本分类技术成为社区问答系统构建的一个关键问题。短文本的长度通常小于160个字符,词汇个数少并且描述信息弱,具有稀疏性和不规范性,却隐含大量有价值的信息。目前,一些学者先后开始研究利用一些额外的信息来扩展文本特征辅助中文短文本分类。如王鹏[2]等利用依存关系对短文本进行特征扩充以实现有效的短文本分类。王细薇[3]等、曹叶盛[4]、Fan[5]等利用关联规则挖掘文本中词共现关系以构建特征共现集进行短文本特征扩展。宁亚辉[6]等提出借助知网对领域高频词进行特征扩展的短文本分类方法。王盛[7]等利用知网的上下位关系对短文本进行扩

4、展。但是领域知识库一般由专家进行编撰,只包含小范围的领域和有限的主题,词汇可扩展性差且更新速度慢,难以满足社区问答系统中的问题分类的需求。范云杰[8]等利用维基百科对短文本进行特征扩展,其采用考虑概念类别因素基于tf-idf法计算概念间相关度。15为提高社区问答系统中的问题文类效果,本文研究将维基百科知识库引入到中文短文本分类过程中,提出一种基于特征扩展的中文短文本分类算法。本文利用维基百科所含有的类别、概念及其链接等信息,以词语间语义相关关系为基础对短文本特征词语进行语义特征扩展,以此提高特征词所描述概念的准确性、丰富语义表

5、达,同时在一定程度上降低短文本特征稀疏对分类性能的影响。1维基百科相关理论维基百科作为一个以开放和用户协作编辑为特点的Web2.0知识系统,具有知识覆盖面广,结构化程度高,信息更新速度快等优点[9]。维基百科是一个以页面为单位组成的具有丰富链接结构的超文本文档集合,它主要包含以下重要元素:1.1主题页面主题页面作为维基百科中最基本、重要的元素,其含有惟一的ID标识用以描述一个单独的概念。概念是维基百科的基本单位,即指被解释的一个对象、事件或命名实体,如“情报”、“北京奥运会”、“姚明”等。1.2类别体系类别是维基百科中对概念页

6、面信息进行组织的一种有效手段。每一个概念页面通常归属于一个类别或多个类别。如“文本挖掘”这个概念页面归属于“数据挖掘”、“人工智能应用”等多个类别。每个类别可以包含若干子类别,上下层类别之间不仅反映出继承的关系,也可能是实例、包含、属性等不同的语义关系。类别之间的这种关系构成一个巨大的分类体系。1.3重定向15维基百科将同义的多个概念用一个页面进行描述,这些概念中只有一个概念的页面包含解释描述信息,其他的概念则使用重定向链接到这个页面,包含重定向链接的页面称作重定向页面[9]。重定向页面的概念与目标页面概念是同义词。例如“NB

7、A”被重定向到“国家篮球协会”,这种重定向页面的机制同时能够处理大小写、缩写、拼写变体、专业术语等。1.4消岐页消岐页是为了处理一词多义的机制[9],例如消歧页面“风车(消歧义)”中,包含指向多个概念页面的链接:“风车”,“风车(玩具)”,“风车(农具)”等。1.5链接页面与页面之间通过主题页面内容中的超链接联系起来[10]。即概念的描述之间用超链接联系,其中蕴含着重要的事实联系或语义关系。2基于维基百科的特征扩展为提高短文本特征词的类别特征和最大限度的保留其语义信息,本文借助维基百科知识库来挖掘短文本所蕴含的隐性信息,通过选

8、取一些在语义层面与特征词有高度相关关系的词对特征词进行扩展以辅助短文本分类,利用抽取的维基百科词语相关概念集合作为扩展词集合,通过扩展词集合从语义层面对特征进行扩展,以构建语义向量空间。15本文中的特征扩展以现实世界词语间的语义相关关系为基础,对文本特征词进行扩展,通过某个特

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。