群聊话题检测技术研究

群聊话题检测技术研究

ID:35095432

大小:7.06 MB

页数:70页

时间:2019-03-17

群聊话题检测技术研究_第1页
群聊话题检测技术研究_第2页
群聊话题检测技术研究_第3页
群聊话题检测技术研究_第4页
群聊话题检测技术研究_第5页
资源描述:

《群聊话题检测技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文题目:群聊话题检测技术研究研究生张馨雨专业计算机技术指导教师郑宁研究员完成日期2016年3月杭州电子科技大学硕士学位论文群聊话题检测技术研究研究生:张馨雨指导教师:郑宁研究员2016年3月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterTheResearchonTechnologiesofTopicDetectioninGroupChatCandidate:XinyuZhangSupervisor:Prof.NingZhen

2、gMarch,2016抗州由子女挙学位论文原创性声巧和便用授权说巧原倒推声明本人巧重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研工作。巧;所取得的成果除文中已经注明引用的内容外,本论文不含任何其他个人或集体己经发表或撰写过的作品或成果。对本文的研巧做出重要贡献的个人和集。体,均已在文中ilt明确方式标明一切相关责任申请学位论文与资料若有不实之处,本人承担。论文作者签名:本苗9日期;>冷年?肯日考璋^学位论文使用授权说巧:本人完全了解杭州电子科技大学关于保留和使用学位

3、论文的规定,即研巧生在校攻读学位期间论文王作的知识产权单位属杭州电子科技大学,本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件,允许査阁和借阅论文;学校可公布论文的全部或部分内容,可1^^允许采用影印、缩印或其它复制手段保存论文。(保密论文在解密后遵守此规定))论文作者签名;曰期:办f谷年月i曰;指导教师签名:日期;心W6年巧日乃^杭州电子科技大学硕士学位论文摘要即时消息系统的便捷性使得在线群聊成为了人们日常生活中交流沟通的一个

4、重要方式。但是,群聊文本存在内容简短、结构不规范、回复对象不明确等特点,给群内话题的检测带来了挑战。如何从聊天文本流中准确的检测出群内有价值的话题是当前研究中的一个难点和热点问题。本文针对群聊话题检测中的两个关键问题:如何缓解聊天文本向量稀疏性和解决聊天话题交叉性展开了研究。首先,为了降低了聊天短文本的稀疏性和奇异性对话题检测技术性能的影响,将具有回复关系的聊天文本拼接在一起作为整体处理,提出了一种基于隐式回复特征的群聊话题检测方法。提出的方法从大量真实的群聊记录中总结提取出聊天文本中存在的隐式回复特征,借助隐式回复特征

5、发现群会话中的起始信息,以起始信息作为群聊文本流的分割点,将得到的文本流片段视为一个长文本,在长文本的基础上进行聊天文本聚类得到话题。实验结果表明,基于隐式回复特征的群聊话题检测方法能够有效的缓解聊天文本向量稀疏性带来的挑战,其F-measure值达到0.595,比基于历史统计信息的方法提高了6%,比传统的基于文本相似度的方法提高了22%。其次,为了降低话题交叉性对话题检测技术性能的影响,引入了多话题窗口机制来准确的定位回复信息的回复对象,提出了一种基于多话题窗口的群聊话题检测方法。提出的方法用多话题窗口保存群会话中最近

6、讨论的K个话题,当系统读入新的消息文本时,借助隐式回复特征和文本相似度来确定新消息是否是对多话题窗口中的某个话题的回复,如果存在回复对象,将新消息文本加入该话题对象中,否则,向前滑动多话题窗口,并将新消息文本作为新话题保存在多话题窗口的首窗口中。实验表明,基于多话题窗口的群聊话题检测方法能够有效的解决话题交叉性问题,提高了复杂聊天环境下的话题检测性能,其F-measure值达到0.662。本文在群聊话题检测领域,重点研究了如何缓解聊天文本向量稀疏性和聊天话题交叉性对话题检测性能的影响,并取得了一定的成效。本文的研究成果将

7、有助于群用户更便捷更准确的掌握群内讨论过的话题,提高了群聊系统的用户体验。关键词:群聊,话题,隐式回复,检测,话题窗口I杭州电子科技大学硕士学位论文ABSTRACTTheconvenienceofInstantMessagingsystemmakesonlinechattinganimportantwayofpeople’sdailycommunication.However,theinformationingroupchatisbrief,thestructureisnotcomplete,andthereplyobj

8、ectisnotclear.Itchallengesthedetectionofchattopicsingroup.Therefore,itbecomesadifficultandhotissueatpresentthathowtoaccuratelydetectoutvaluabletopicsinthegroup

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。