欢迎来到天天文库
浏览记录
ID:35102028
大小:5.26 MB
页数:94页
时间:2019-03-17
《面向商业舆情的网络智能分析系统研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、4击种成A赛CANDTECHNOLOGYOFCHINAUNITYOF巨LECTRONICscIENE马IVERSI硕±学位论文WMASTERTHESIS、,,论文题目面向商业舆情的网络智能分析系统研究与实现学科专、化计算机巧用技术01321240305学号2作者姓名李慧指导教师张可副研究员独剑性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作。据我所知及取得的研究成果,除了文中特别加W标注和致谢的地方夕h论文中不包含其
2、他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研巧所做的任何贡献均已在论文中作了明确的说明并表示谢意。:乂2容曰作者签名:慧曰期月__名年^_论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,,有权保留并向国家有关部口或机构送交论文的复印件和磁盘允许论文被查阅和借阅。本人授权电子科技大学可W将学位论文的全部或部分内容编入有关数据库进行检索,可^^采用影印、缩印或扫描等复制手段保存、汇
3、编学位论文。(保密的学位论文在解密后应遵守此规定)作者签名:冬聲导师签名:.榮骑弓心平G巧日:月期日分类号密级注1UDC学位论文面向商业舆情的网络智能分析系统研究与实现(题名和副题名)李慧(作者姓名)指导教师张可副研究员电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机应用技术提交论文日期2016年5月9日论文答辩日期2016年5月26日学位授予单位和日期电子科技大学2016年6月日答辩委员会主席评阅人注1:注明《国际十进分类法》的类号。RESEARCHANDIMPLEMENTATIONO
4、FNETWORKINTELLIGENTANALYSISSYSTEMFORBUSINESSPUBLICOPINIONAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerApplicationTechnologyAuthor:HuiLiAdvisor:AssociateProfessorKeZhangSchool:SchoolofCommunication&InformationEngineering摘要摘要互
5、联网的低门槛、快速、互动量大等特点,使民意、言论自由都得到了空前展现,网络舆情成为影响着执政者的决策行为的重要因素。目前国内外商业竞争加剧、消费者的消费意识与自我保护意识逐渐成熟,而市场上商业机构危机应对能力薄弱,这就凸显了网络商业舆情引导策略的重要性。国外舆情系统体系较为完整,而目前国内网络舆情系统多偏向于政府应用、军事监管,涉及商业应用的舆情系统寥寥无几,且构建舆情系统的技术繁杂,多种算法直接影响到舆情信息提取的精确度。本课题将面对舆情分析中的几种主要技术,针对提高聚类和信息提取精度的技术进行研究分析,主要工作如下:1.结
6、合现有的几种舆情语料库,针对商业内容进行提取,对爬取的信息采用布尔模型进行粗分,再使用向量空间模型进行表征,减小了后续聚类文本的数量,也为提高聚类精度提供了可能。2.根据TF-IDF文本表示方法的思路提出一种新的EM-NWTF算法,重点处理公式中IDF因子的计算方式、增加位置考虑和分部状况设置加权系数,结合布尔模型粗分后的结果,计算不同类别间的反文档频率,解决了原算法中生僻词影响、同类文本区分度低的问题;主要依靠增加位置权重和强调因子,在算法精度和复杂度间取得平衡,前者考虑首尾段落中特征值的重要性,后者考虑文本中间段落特征值均
7、匀分布的状况。仿真分析影响算法精度的相关原因。3.针对K-means算法事先要求给出聚类数目K、对噪声敏感、初始中心影响大等缺点,在此基础上提出Miniter-means算法,采用相似度度量文本间距离,设定阈值过滤噪声和孤立点,增加影响系数,用已聚类的簇生成新聚类簇质心的新方法进行计算。设计仿真实验,对比两种算法的性能与鲁棒性,分析算法精度与相关参数。4.为提高海量数据并发处理效率,在Hadoop分布式平台对上述新算法及优化措施进行运行和测试,并进行效果分析。关键词:舆情,TF-IDF,k-means,hadoopIABSTR
8、ACTABSTRACTDuetointernet'sfast,lowthresholdandinteractivefeatures,freedomofspeecheshasbeenrealized.Internetpublicopinionhasbecomeanimporta
此文档下载收益归作者所有