欢迎来到天天文库
浏览记录
ID:35069747
大小:5.44 MB
页数:60页
时间:2019-03-17
《基于胡氏大间隔近邻的企业舆情分类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、巧女擎化推义基于蘭巧大间隔近邻的企业舆情分类算法的研究朱茜‘.-..’■‘‘';..77一.-|户:?r:入;.>.八—V,‘V■,入、.'?:’■..一.'?.,t巧^參二〇—六年五月?'1-分类号TP391.1密级公开UDC硕±学位论文基于胡氏大间隔近邻的企业舆情分类算法的研究朱茜学科专业信息安全与电子商务捨导教师章华教授论文答辩日期2016年5月24日学位授予日期2016年6
2、月30日答辩委员会主席陈友初教授级高级工程师广西大学学位论文原创性和使用授权声明本人声明所呈交的论文,是本人在导师的指导下独立进行研究所取得的研究成果。除已特别加W标注和致谢的地方外,论文不包含任何其他个人或集体己经发表或撰写的研究成果,也不包含本人或他人为获得广西大一学或其它单位的学位而使用过的材料。与我同工作的同事对本论文的研究工作所做的贡献均已在论文中作了明确说明。本人在导师指导下所完成的学位论文及相关的职务作品,知识产权归属广西大学。本人授权广西大学拥有学位论文的部分使用权,即;学校
3、有权保存并向国家有关部口或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅,可W将学位论文的全部或部分内容编入有关数据库进行检索和传播,可采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文属于;□保密,在年解密后适用授权。囚不保密。""请在W上相应方框内打V()论文作者签名:秦慕曰期:2〇|名年^月S曰指导教师签名日期20>占茸《巧X日/电子邮箱作者联系电话:;基于胡氏大间隔近邻的企业舆情分类算法的研究摘要互联网环境下,企业网络舆情会给企业经营带来实际影响
4、,故企业非常关注网络舆情的发展。由于网络舆情信息数据量大、内容分散、数据结构复杂,使用传统的分类算法往往不能达到预期的分类效果。针对该问题,本文从W下两个方面对企业舆情分类技术进行研究:1.针对网络舆情数据高维、线性不可分的问题,本文采用组合核距离代替欧氏距离计算相似度,通过核函数将数据从可分性较差的低维空间映射到非线性可分性高维特征空间,在不增加计算复杂度的情况下増加舆情数据的可分类性。实验结果表明,所提方法对舆情事件有较好的分类效果。2.针对大规模舆情分类时,大间隔近邻算法(LMNN)中的半定
5、规划问题规模会随着数据规模增大而急剧膨胀,导致求解困难的问题,本文引入胡贝尔损失函数把LMNN算法的半定优化模型分解为两个低阶的连续优化子模型,降低算法的计算复杂度,提高了计算效率。在舆情分类数据集上的实验结果表明,本文算法与传统大间隔近邻算法相比,分类准确率提高了4.15%,分类时间节省了47.10%,故采用分解降阶法来改进大间隔近邻分类算法的性能是可行的,更适用于大规模企业舆情文本分类。关键词:企业舆情事件分类文本特征提取大间隔近邻算法胡贝尔损失画数1THE祀SEARCHOF
6、THECLASSIFICATIONALGORITHMFOR'-ENTERPRISESPIBLIGOPINIONSBASEDONHUBERLMNNABSTRACTIntheInternetenvironment,thepublicopinionsaboutanenterprisewillhaveasinificantimpactontheoerationsoftheenterrise.So,thecomaniesgpppareveryconcern
7、edaboutthedevelomentoftheublicoinionsintheInternet.pppBecause-theublicoiniondataarelarescaleandcomlexonesthetraditionalppgp,classificationalgorithmsoftenfailedtoachievethedesiredclassifiedresults.Tosolvethisproblem,thispaper
8、studiesthenewclassi打cationt:echnologiesof’enterrisesublicoinionson化efollowintwoasects:pppgpub-Firstlthelicoinion
此文档下载收益归作者所有