基于语义与最大匹配度的短文本分类研究_孙建旺

基于语义与最大匹配度的短文本分类研究_孙建旺

ID:38102084

大小:915.42 KB

页数:6页

时间:2019-05-24

基于语义与最大匹配度的短文本分类研究_孙建旺_第1页
基于语义与最大匹配度的短文本分类研究_孙建旺_第2页
基于语义与最大匹配度的短文本分类研究_孙建旺_第3页
基于语义与最大匹配度的短文本分类研究_孙建旺_第4页
基于语义与最大匹配度的短文本分类研究_孙建旺_第5页
资源描述:

《基于语义与最大匹配度的短文本分类研究_孙建旺》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2013年10月计算机工程与设计Oct.2013第34卷第10期COMPUTERENGINEERINGANDDESIGNVol.34No.10基于语义与最大匹配度的短文本分类研究孙建旺,吕学强,张雷瀚(北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101)摘要:为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出

2、了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。关键词:短文本分类;义原相似度;词语相似度;语义;最大匹配度;KNN算法中图法分类号:TP391.1文献标识号:A文章编号:1000-7024(2013)10-3613-06ShorttextclassificationbasedonsemanticsandmaximummatchingdegreeSUNJian-wang,LXue-qiang,ZHANGLei-han(BeijingKeyLaboratoryofInt

3、ernetCultureandDigitalDisseminationResearch,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)Abstract:TodealwiththeseriousdatasparsenessproblemexistsinthetraditionalVSMmethodofcarryingoutshorttextclas-sification,ashorttextclassificationmethodbasedonthesemanticsandmaximummatchingd

4、egreeisputforward.Theprimarysimilaritycalculationmethodisdesignedbasedonthedistance,thedepthandareadensity.WordsimilaritycalculationiscarriedoutaccordingtoitspartofspeechandHowNetisutilizedasasourceofknowledge.Theshorttextsimilaritycalculationbasedonthemethodofcombiningthesemanticsandmaximumdegreeis

5、proposed.KNNalgorithmisappliedtotheshorttextclassifica-tion.Experimentalresultsshowthattheprecision,recallandF-measurearesignificantlyimprovedincontrastwiththoseofthemethodbasedonthesemantics,AD_NBandsoon.Keywords:shorttextclassification;primarysimilarity;wordsimilarity;thesemantics;maximummatchingd

6、egree;KNNal-gorithm[3]该方法的分类结果也可能是变化的;Sriram等人提出了0引言一种使用作者信息和tweets内部特征的Twitter短文本分为了能够有效地组织和分析海量的短文本信息,人们类方法,取得了较好的效果,但该方法采用手工方式寻找[4]希望能够按照内容对短文本进行分类,于是便产生了短文类别特征,通用性较差;Duan等人利用与待分类微博文本分类问题。短文本分类是对内容比较短的文本(通常不本相关的其它微博来丰富待分类微博文本的内容,应用[1]。短文本内容较短、特征稀疏超过160个字)进行分类LBP、RL以及ICA3种不同的基于图形的分类模型进行短等特点,导致目前针对

7、短文本分类的效果不佳。文本分类研究,一定程度上解决了数据稀疏的问题,但该在短文本分类领域,国外学者取得了一定的成果。方法需要构建一个庞杂的关系网,而且含有相同标签的文[2]Sun提出一个简单的、可伸缩的和非参数的短文本分类方本属于同一主题的假设在实际应用中很难得到满足。在国法,充分利用信息检索技术,通过网上投票的方法来对短[5]内,针对短文本分类的研究尚处于起步阶段。孙学琛等文本进行分类,但由于搜

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。