微博用户性别判断分析与研究

微博用户性别判断分析与研究

ID:23516942

大小:1.29 MB

页数:55页

时间:2018-11-08

微博用户性别判断分析与研究_第1页
微博用户性别判断分析与研究_第2页
微博用户性别判断分析与研究_第3页
微博用户性别判断分析与研究_第4页
微博用户性别判断分析与研究_第5页
资源描述:

《微博用户性别判断分析与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉邮电科学研究院硕士学位论文微博用户性别判断分析与研究AnalysisandResearchofMicroblogUserGenderClassification专业:通信与信息系统研究方向:自然语言处理导师:汪洋研究生:孙启蕴学号:20150078二〇一八年一月武汉邮电科学研究院硕士学位论文独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果,除了文中特别加以标注的地方外,没有任何剽窃、抄袭、造假等违反学术道德、学术规范的行为,也没有侵犯任何其他人或组织的科研成果及专利。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明

2、并表示了谢意。如有任何侵权行为,本人愿意为此独立承担全部责任。作者签名:_______________签字日期:关于论文使用授权的说明本人完全了解武汉邮电科学研究院(烽火科技集团)有关保留、使用学位论文的规定,本文知识产权归武汉邮电科学研究院所有,武汉邮电科学研究院有权保留送交论文的复印件和电子版本,允许论文被查阅和借阅。同意将本人的学位论文提交中国学术期刊(光盘版)电子杂志社全文出版并收入《中国学位论文全文数据库》。公开保密一年保密两年(注:保密的学位论文在解密后遵守此协议)作者签名:签字日期:导师签名:签字日期:武汉邮电科学研究院硕士学位论文摘要从电子邮件到博客再

3、到Facebook、Twitter等网站的出现,社交网络发展速度之快在过去是难以想象的。社交网络逐渐融入人们的日常生活中,在各方面都有着举足轻重的影响。它不仅提供丰富的信息还有着强大的煽动力,不仅展现人们的日常生活还能为商家提供营销推广的平台。微博用户性别判断分析与研究在不同领域都具有研究意义和实用价值。本文的研究内容主要分为以下两个方面:首先基于用户原创微博文本判断用户性别。针对用户原创微博的短文本稀疏性的特点,提出一种结合word2vec模型和LDA主题模型扩充特征的方法。以中文维基百科数据集作为基准生成词级别的word2vec模型,海量原创微博文档经过word2

4、vec模型扩充特征后生成文档级别的LDA主题模型。使用改进后的模型对训练样本和测试样本进行特征扩充后,用训练样本训练SVM分类器,测试样本测试分类准确性。实验结果表明,通过word2vec和LDA结合模型扩展关键词,能有效降低文本词稀疏程度,提高分类准确性。其次基于原创微博文本、用户标签、用户昵称三个视图判断用户性别。针对新浪微博用户数量非常大,且性别信息并不一定真实,造成样本打标困难的现状,采用了一种改进的半监督学习中的tri-training方法。通过分析构建三个不同的视图,结合熵值装袋查询构建六个分类器,利用少量已标记样本和大量未标记样本不断迭代训练分类器,每次

5、迭代时选取投票熵最大的未标记样本进行人工打标后加入训练集,同时将隐式投票结果一致的未标记样本加入训练集。通过真实用户数据对分类器的分类性能进行试验,发现使用改进后的tri-training分类器准确性比原始tri-training算法提高了1.3%,比单视图监督算法平均提高了7.1%。关键词:word2vecLDA主题模型tri-training算法多视图学习性别判断I武汉邮电科学研究院硕士学位论文AbstractFrome-mailtoblog,Facebook,twitterandotherwebsites,thedevelopmentofsocialnetwor

6、kbeyondtheimaginationofpeople.Socialnetworkplaysanimportantroleinpeople'slives.Ithasbecomeapartofpeopleandhasaninestimableimpactonpeople'saccesstoinformation,thinkingandliving.Socialnetworkhasbecomeawindowforpeopletoaccessinformation,showthemselvesandpromotemarketing.Microbloguser'sgend

7、erjudgmenthasstrongpracticalapplicationvalueinsuchfieldaspersonalizedrecommendation,intelligentmarketingandsoon.Theresearchofthisthesisisdividedintothefollowingtwoaspects:Thefirstresearchisjudgingmicrobloguser'sgenderbasedontheuser'soriginalmicroblogtext.Aimingattheshorttextspa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。