欢迎来到天天文库
浏览记录
ID:35078146
大小:3.59 MB
页数:66页
时间:2019-03-17
《微博用户性别识别方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:誦5学号:20134227025国《州乂爭^:IVERSITY'v、SOOCHOWUN醒;.^;微博用户性别识别方法硏究-UserGenderClassificationinMicroblog■ ̄研究生姓名王晶晶指导觀I币姓名李軸(教授)专业名称计算机科学与技术研究方向自然语言处理PPP所在檢部计算机科学与技术学院二。■——-—'论文提交日期2016年6月*—'"■■.:—:—-——'-,;./'—;!
2、苏州大学学位论文独创性声明本人郑重声明;所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中己经法明引用的内容外,本论文不含其他个人或集体己经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体。,均己在文中明确方式标明本人承担本声明的法律责任。1於占论文作者签名;日期;苏州大学学位论文使用授权声明、目本人完全了解苏州大学关于收集保存和使用学位论文的规定,P;学位论文著作权归属苏州太学。本学位论文电子文档的内容和纸质论文的一—内容相致。苏州大学有权
3、向国家图书馆、中国社科院文献信息情报中屯、、盘中版国科学技术信息研究所(含万方数据电子出版社)、中国学术期刊(光)电子杂志社送交本学位论文的复印件和电子文档,允许论文被查阅和将借阅,可W采用影印、缩印或其他复制手段保存和汇编学位论文,可W学位论文的全部或部分内容编入有关数据库进行检索。涉密论文〇本学位论文属在年__月解密后适用本规定。非论涉密论文□文作者签名:心P的若占日期;导师豁名日期;W微博用户性别识别方法研究摘要微博用户性别识别方法研究摘要社交网络数据自动化分析是自然语言处理、社交网络分析等领域的重要研究课题。其中,微博用户性别识别是
4、一项基本研究任务。该任务旨在利用社交平台用户产生的数据对用户的性别进行预测。虽然基于微博的性别分类已有一定的研究,但是针对中文文本的研究还比较缺乏。因此,本文首先探索了关于中文微博文本的单用户的性别识别方法。其次,受微博用户彼此之间的交互机制启发,我们定义了一个新的任务,即交互式性别分类,其可以同时对某个交互中参与的两个用户的性别进行分类。此外,值得一提的是,本文最终提出了一个联合推理方法,其不仅能稳定的提升交互式性别分类任务的性能而且能同时提升单用户性别分类的性能。具体而言,本文的研究内容主要包括以下三个方面:首先,针对中文文本微博用户分类问题,本文提出分别利用用户名和微博文本构
5、建两个分类器对用户的性别类型进行判别,并对不同的特征(例如:字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明本文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。其次,社交网络平台中的用户不是孤立存在的而是彼此之间相互联系的。因此,用户生成的文本一般被许多用户共享而不单单只属于一个用户。鉴于此现象,本文定义了一个新的任务,即交互式性别分类,致力于通过利用某两个用户之间交互的文本同时对这两个用户的性别
6、进行预测;并且为了解决这些交互式文本间存在的相同用户性别标签依赖关系,本文提出了一个两阶段方法。具体而言,第一阶段,我们采用一个标准的四类别分类方法来获得一个初步的分类结果。第二阶段,我们提出了两种不同的优化算法,即标签驱动和概率驱动优化算法,来获得全局最优的性别预测结果。最后,不仅仅交互式性别分类任务中的样本间存在相同用户性别标签依赖,而且交互式性别分类与单用户性别分类两个不同任务中的样本间也存在该依赖关系。鉴于I摘要微博用户性别识别方法研究此,本文提出了一种包含样本间标签相关性的联合推理方法。具体的,我们利用整数线性规划算法(ILP)来处理各种内部任务约束(交互式性别分类任务中
7、的约束)和外部任务约束(单用户性别分类任务中的约束),并进行全局优化。实验结果表明我们的基于整数线性规划模型的交互式性别分类算法能同时在单个用户性别分类任务和交互式性别分类任务上都取得较好的分类性能。关键词:性别分类,文本分类,社交网络,整数线性规划作者:王晶晶指导老师:李寿山IIUserGenderClassificationinMicro-blogAbstractUserGenderIdentificationinMicro-blogAbstractAutomat
此文档下载收益归作者所有