运用传统方法进行大众评论的情感分析问题(基于python语言)

运用传统方法进行大众评论的情感分析问题(基于python语言)

ID:42701820

大小:295.41 KB

页数:11页

时间:2019-09-20

运用传统方法进行大众评论的情感分析问题(基于python语言)_第1页
运用传统方法进行大众评论的情感分析问题(基于python语言)_第2页
运用传统方法进行大众评论的情感分析问题(基于python语言)_第3页
运用传统方法进行大众评论的情感分析问题(基于python语言)_第4页
运用传统方法进行大众评论的情感分析问题(基于python语言)_第5页
资源描述:

《运用传统方法进行大众评论的情感分析问题(基于python语言)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、题目:运用传统方法进行大众评论的情感分析问题作者:刘小文2015届上海大学本科毕业论文摘要本文介绍了通过基于python自然语言处理的中文文本分类流程,通过对大规模的真是语料,大众评论,基于传统方法,利用python的Scrapy爬虫抓取,预处理,再使用jieba进行文本词语的分类使得用户评论变得可处理,在基于Gensim的Word2vec的工具箱下将文本分词矢量化,使得具有维度,将矢量化的文本进行特征提取,从而实现传统方法进行情感分析,并将结果呈现出来。关键词:python文本分类语料分析Word2vecAbstr

2、actThispaperintroducesthepython-basednaturallanguageprocessingChinesetextcategorizationprocess,bylarge-scalereallycorpus,userreviews,basedontraditionalmethods,theuseofScrapypythonreptilescrawl,pretreatment,andthenusejiebafortextwordstheclassificationprocessmake

3、suserreviewsbecomeavailableinGensimbasedtoolboxWord2vecthetextwordvectorizationsoastohaveadimension,thevectorizationoftextfeatureextractioninordertoachievethetraditionalmethodsofsentimentanalysis,andtheresultsarepresentedcomeout.Keywords:pythontextclassificatio

4、ncorpusanalysisWord2vec1引言1.1文本分类流程人们快捷人们的生活越来越依赖于大数据。在这个时代大数据,谁能够掌握大量数据的,谁就在这个信息时代拥有更多的话语权。互联网信息资源的开发,使之与文本分类的混合情绪已经成为研究信息的热点地区之一。在自然语言,特别是在文本分类的研究,理论和DG的实践之间的研究紧密结合彼此:自然语言理解,机器学习,特征提取和文本分类的其他领域奠定了情感分析坚实的理论基础;和文本分类是由于在该领域的非常实用的研究,在互联网上爬行,预处理的文本,该文本,矢量化的话,最后的特征

5、提取操作都离不开大量的练习来进行测试。在各种自然语言处理,编程语言,蟒蛇算是后起之秀,Python语言简洁,可读性和可扩展性强。Python中也有一个有钱有势的图书馆,经常被称为胶水语言,能够很容易地与其他语言(特别是C/C++)制成各种模块连接在一起。对于MATLAB,Python入门成本较低,但也更容易学习,更严格的语言公开征求意见程序,用传统的语言处理方法,获得文本的特征值,从而在大数据的情感分析到达处理可以有很多实际的一个1.2传统情感分析方法传统的情感分析方法有很多,但最流行的是衍生品的SVM(支持向量机)

6、,朴素贝叶斯(贝叶斯)和最大熵(最大熵)三种分类算法,三种算法不断,让越来越多的订单丰富多彩情感分析,下面将简要地考察三种方法。1.2.1支持向量机SVM在机器学习领域,支持向量机(支持向量机)是一种监督学习模式通常用于模式识别,分类和回归分析。SVM有两个主要的想法:首先是要用于非线性点线性分析的情况下,通过使用低维空间的非线性映射算法线性不可输入样本转换成高维特征空间,以便它线性地可分离以便使用可能样品的线性分析的非线性特性的第一算法的高维特征空间。第二机制是基于以上在特征空间最佳分割的超平面构造风险最小化的SV

7、M理论,使学习者获得全局优化,并在整个样本空间中的预期风险满足一定的概率的上限。1.2.1.1SVM的一般特征1.SVM学习问题可以表示为一个凸优化问题,所以你可以用已知的找到目标函数的全球最低有效的算法。其他分类方法(如基于规则的分类和人工神经网络)都采用基于贪心学习策略来搜索假设空间,这种方法一般只能局部最优解。通过最大化决策边界边缘,以控制模型的能力。然而,用户必须提供额外的参数,如利用核函数类型和引进松弛变量。.通过引入虚拟变量为每个类别属性数据,SVM可应用于分类数据。SVM一般只在两种类型的问题地使用,对

8、于许多类型的无效的问题。为了选择不同的内核的功能,可以产生不同的SVM,一般有以下四种⑴线性核K(X,Y)=X•ÿ;⑵多项式核K(X,Y)=[(X•Y)+1]^D;⑶径向基函数K(X,Y)=EXP(-

9、x-y

10、^2/D^2)⑷核心层的神经网络K(X,Y)=正切(A(X•Y)+B)。相应的内核功能没有问题选择6.SVM更加困难,分类精度的更复杂的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。