基于词向量方法的微博用户抑郁预测

基于词向量方法的微博用户抑郁预测

ID:21515123

大小:28.00 KB

页数:7页

时间:2018-10-22

基于词向量方法的微博用户抑郁预测_第1页
基于词向量方法的微博用户抑郁预测_第2页
基于词向量方法的微博用户抑郁预测_第3页
基于词向量方法的微博用户抑郁预测_第4页
基于词向量方法的微博用户抑郁预测_第5页
资源描述:

《基于词向量方法的微博用户抑郁预测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于词向量方法的微博用户抑郁预测  摘要常用的抑郁检测方法都是采用的传统的情感分析的方法,比如情感词汇的统计,用户微博情感的极性计算以及聚类分析等。这些方法采用的都是人为的定义特征的方法,需要花费大量的时间定义以及处理特征,同时还需要进行特征的降维和简化等工作。为了自动学习出用户的特征,本文采用了word2vec训练词向量的方法来构建用户的向量表示。由于词向量包含了一定的语义信息,在此基础上构建的用户向量则涵盖了用户的微博文档信息。本文利用构建好的用户向量进行了用户的抑郁分类实验,结果表明本文提出的方法可以应用于抑郁的分类与检测。  【关键词】word2vec词向量用

2、户向量抑郁检测  1引言  世界卫生组织目前指出,在2020年到来之际抑郁症的发病率将仅次于缺血性心脏病,成为世界上第二大严重的流行疾病。抑郁症心理障碍对人们造成的影响十分巨大,患有抑郁的人群注意力学习能力会相应的下降,工作的效率会大大减小,这极大的影响了这群人的生活。在世界前十种致残或使人丧失劳动能力的主要疾病中有五种是精神疾病,其中抑郁症名列第一给社会带来巨大的危害。  目前抑郁症的检测主要是基于问卷调查的方式,医院或者心理检测机构向参与心理调查的用户发放调研问卷。基于心理测评表的方法能够很好的预测用户是否有心理障碍的迹象,针对心理自评表的得分基本可以判断用户是否

3、有抑郁症等心理障碍。但是这种方法只适用于一对一的调查检测,大规模的采用这种问卷调查方式进行人群普查将消耗大量的人力物力。  作为中国的的社交网络工具,微博是中国最热门的个人及媒体发布信息的平台之一。由于微博是个人用户分享心情,发表看法以及与他人互动的平台,个人用户的微博包含了大量的用户个人信息以及情感动态,获取并对这些微博内容进行分析可以进行个人情感的挖掘,深度挖掘这些内容为分析个人用户的情感提供了可能。  本文通过获取具有心理障碍以及没有心理障碍人的微博数据,对这些数据进行格式的清洗,去除不需要的信息如符号,表情,标点等,获取到文本信息进行词向量的训练,并在此基础上

4、构建用户向量用于分类器的实现。  2词向量简介  word2vec是google发布的通过训练词汇得到词向量的一款开源工具。word2vec采用的是分布式表示的词向量方法。根据给定的分此后的语料库,word2vec可以使用神经网络模型将词语表示成向量的形式。主要思想是根据每个词具有不同的词频特性,使用Huffman编码方式对词语进行编码。编码的方法是根据不同的词频采用不同的编码。词频越高的词语,其训练时隐藏层数目越少。词频相差不多的的词汇在训练时隐藏层采用相同的激活方式。采用这种方法可以有效的减少模型计算的复杂度。  Word2vec包括两种训练模型,分别是CBOW和

5、Skip-gram。  如图1,CBOW模型采用周围的词对中心词进行预测,中间为求和层。这种方法是Mikolov将原始的NNLM的神经网络训练模型经过改造后的到的一种模型。其中,最下一层是句子上下文词汇,中间层是对上下文词汇进行汇总去预测中间词汇。  图2为skip-gram模型,输入为词的独热向量形式,隐藏层对输入进行了抽象处理,输出层节点的数目和目标词周围词对应。最终由softmax计算得到词的预测概率。  3词向量的训?  3.1数据获取  本文通过编写爬虫的方法,获取了443个患有抑郁症的用户数据以及477个没有抑郁的用户的数据。由于是采用词向量的方法进行试验

6、所以本文去除了与文字无关的符号。采用正则匹配的方式过滤掉无用的信息,最后针对文本进行分词处理,得到一个微博文本的分词库。  为了保证词向量训练的效果,要将分词库中的停用词去掉。常见中文停用词包括“的”,“得”,“么”等助词,同时也包括“和”,“与”,“以及”等连接词。同时也包括逗号,句号等标点符号。  训练过程中,word2vec根据不同参数的值来改变训练的方法以及词向量的表示大小以及采样大小等。word2vec的具体参数如图3所示。  其中time表示训练的总共时间,train后面为训练文件即输入的处理后的分词文件。Dir为文件所在地址。output为训练后的词向量

7、文件,一般保存为bin格式。cbow表示是否采用cbow模型训练,默认为skip-gram模型。两种模型有不同的优势,cbow训练速度快,skip-gram对于罕见词汇有更好的表示。Size表示词向量的维度大小,window表示训练词向量时上下文相关词汇的数值,word2vec会根据这个数值来扫描当前词汇的上下词汇,词汇的数值反映了得到词向量的语义包含的上下文词汇数目。hs和negative是训练网络中的采样方法表示,1表示选用,0表示不选用。Sample参数是采样过程中设置的大小,这个要根据语料集的大小来决定采样的数值。min-count参数是最低

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。