欢迎来到天天文库
浏览记录
ID:33520158
大小:2.93 MB
页数:59页
时间:2019-02-26
《中文微博中的问题检测技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据指导小组成员名单黄萱菁邱锡鹏张奇周雅倩教授副教授讲师万方数据复旦大学硕士研究生学位论文中文微博中的问题检测技术研究~⋯⋯⋯⋯⋯曼⋯¨\嘲黜.III摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.YZB5,鱼参殳.第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.1研究背景与研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..11.2相关工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯21.3.1中文疑问词的复杂性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.41.3.2中文未登录词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.51.4本文概述及主要贡献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..51.5本文组织结
2、构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..6第二章微博中的问题分类及检测方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯72.1微博中的问题分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.72.1.1问题分类实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.82.1.2中英文微博中的问题分布统计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.102.2问题检测方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.102.2.1朴素贝叶斯(NaiveBayes)分类器⋯⋯⋯⋯⋯⋯⋯⋯..112.2.2线性分类器⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..122.3传统特征选取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯122.3.3序列模式(SequentialP
3、attern)⋯⋯⋯⋯⋯⋯⋯⋯⋯14第三章面向微博的中文分词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.163.1中文分词概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.163.2基于字聚类的中文分词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..173.2.2基于半监督K-means的中文字聚类⋯⋯⋯⋯⋯⋯⋯⋯⋯193.3.1数据集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯22万方数据复旦大学硕士研究生学位论文中文微博中的问题检测技术研究3.3.3实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.233.3.4分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..253.4本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.
4、.25第四章基于依存句法树模式的特征抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯274.1句法结构概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.274.2句法结构对问题检测的重要性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..284.3依存句法树模式定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.294.4依存句法树模式抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.304.4.I生成候选子树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯314.4.2子树合法性检查⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.324.4.3模式泛化⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.334.5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..35第五章中文微博问题检测实验及分
5、析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..365.1数据集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.365.2评价标准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..375.3实验设置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..375.4问题微博判断效果及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯395.5问题完备性判断效果及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.415.6基于字聚类的分词方法的影响⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..435.7深度的影响⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯445.8错误分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..455.9本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..45第六章总结及
6、未来工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..46参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..48硕士期间发表论文⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯52致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯53II万方数据复旦大学硕士研究生学位论文中文微博中的问题检测技术研究摘要当前,社交媒体,如Twitterl,Facebook2,新浪微博3等,越来越融入现代人的生活,成为人们生活中的一部分。微博不仅仅是用来发布信息,很多时候也用来寻求帮助或寻找信息,越来越多的人会在微博上提问。人们在微博上提问一般基于两个原因:1.传统搜索引擎无法获取准确的答案;2.人
7、们更倾向于从专家或朋友获取答案。本文专注于自动检测中文微博中的问题。首先,由于分词往往是中文文本处理的第一步,如果效果不好,会造成错误传播,影响最终的结果。所以考虑到中文微博中的未登录词比较多,本文提出基于字聚类特征的中文分词方法,能够较大幅度提高未登录词分词的准确率。其次,不同于英文,中文问题更具有多样性,一方面中文中疑问词很多,其次中文句式更复杂。本文提出了基于依存句法树模式的特征来检测问题微博,我们的方法能够很好地同时考虑词法和句法的信息。除了判断是否是问题,本文还会进一步判断问题是否是完备的,完备问题是指那些不需要确认其他信息,就能够给出答
8、案的问题。本文随机选取两天的中文微博作为数据集,实验表明本文提出的方法对判断中文微博是否是问题是非常有效的。对比其他方法,
此文档下载收益归作者所有