基于社交媒体的中文网络流行语自动获取方法分析

ID:33091470

大小:5.94 MB

页数:62页

时间:2019-02-20

基于社交媒体的中文网络流行语自动获取方法分析_第1页
基于社交媒体的中文网络流行语自动获取方法分析_第2页
基于社交媒体的中文网络流行语自动获取方法分析_第3页
基于社交媒体的中文网络流行语自动获取方法分析_第4页
基于社交媒体的中文网络流行语自动获取方法分析_第5页
资源描述:

《基于社交媒体的中文网络流行语自动获取方法分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据硕士学位论文基于社交媒体的中文网络流行语自动获取方法研究论文作者:唐永力指导教师:何婷婷教授学科专业:计算机应用技术研究方向:自然语言处理华中师范大学计算机学院2015年5月万方数据IdentifyingtopChineseNetworkBuzzwordsfromSocialMediaBigDataSetAThesisSubmittedinPartialFulfillmentoftheRequirementFortheM.S.DegreeinComputerScienceByYongli

2、TangPostgraduateProgramSchoolofComputerCentralChinaNormalUniversitySupervisor:TingtingHeAcademicTitle:ProfessorSignatureApprovedMay2015万方数据华中师范大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中己经标明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的研究成

3、果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。作者签名:弛勿日期:眺年j月溜日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同意华中师范大学可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。/

4、、-作者张每永七钠骆彻红丁日期:砷I岁年三月7≯日日期:)c7f多年j月>苫日/的规定享受相关权益。回重诠塞提交卮进后;旦堂生;旦二生;旦三生发查!.作者骆帛永匆翱叛何衍町日期:wⅨ年多月≯≯日日期:凇年士月瑁日万方数据摘要随着互联网走入我国的千家万户以及移动互联网井喷式的发展,我国的信息社会经历了飞速的发展。同时,网络生活的不断丰富,越来越多的网络流行语从“线上’’走入到人们的“线下”生活中。网络流行语作为网络环境中的交际语言,简单实用、生动活泼,深受网民的追捧,在一定程度上影响着数字化时代文

5、化传播的方向,是网络文化的体现形式之一。研究网络流行语对于舆情分析、热点事件追踪以及语言演化规律研究等都有重要意义。目前有很多关于网络流行语的评选活动,但通常是通过问卷调查等人工评选方式来获取的,这种方式主观性强并且会耗费大量的人力物力。在这种背景下,使用机器学习的方法通过计算机辅助获取网络流行语来得到客观的网络流行语排名是具有重要的学术研究价值的。同时,流行语的自动获取作为一种基于自然语言处理研究上的应用性研究工作对计算语言学及中文信息处理的研究都具有重要意义。本文提出了一种使用计算机自动获取

6、网络流行语的模型,该模型以大规模网络语料库为基础,通过使用条件随机场模型对网络语料进行分词、网络百科平台规则提取词条信息、汉语输入法细胞词库的导出等步骤构建出网络流行语候选集。依据网络流行语在使用度分布上存在短时间内快速提升这一规律,对候选词语在不同时间节点的使用频度进行统计并按年度对候选词语建立概率模型,通过计算相邻时间段的模型间的KL距离对候选网络用语的流行程度进行度量并词语流行度得分,通过排序自动获取网络流行语。最后,依据中文网络流行语获取模型设计并实现了一个流行语流行度计算系统,该系统包

7、括网页信息抽取、网络用词频次统计、流行语流行度计算功能等模块。使用该系统对2014年度网络论坛大数据集进行实验的结果表明,本文提出的中文网络流行语获取模型能有效地识别网络流行语,自动获取的结果与人工协同标记的结果具有很高的一致性。由于该方法受调查者主观喜好的影响小,所以自动获取的结果排名甚至在一定程度上优于人工排序的结果,能更客观地反映语言在真实使用中呈现出的特点与规律。该模型不仅仅为计算机辅助判定词语的流行特性提供了参考依据,同时也提供了一种便捷获取中文流行语的途径。关键词:网络流行语;条件随

8、机场;时间分布;语言模型;KL距离万方数据AbstractWiththeboomofChina'sIntemetindustryandablowoutdevelopmentofthemobileIntemet,weareexperiencingadifferentlifestyleininformationage.Inthemeanwhile,moreandmorenetworkbuzzwordsenterpeople’Sdailylifegradually.Networkbuzzwordsar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
正文描述:

《基于社交媒体的中文网络流行语自动获取方法分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据硕士学位论文基于社交媒体的中文网络流行语自动获取方法研究论文作者:唐永力指导教师:何婷婷教授学科专业:计算机应用技术研究方向:自然语言处理华中师范大学计算机学院2015年5月万方数据IdentifyingtopChineseNetworkBuzzwordsfromSocialMediaBigDataSetAThesisSubmittedinPartialFulfillmentoftheRequirementFortheM.S.DegreeinComputerScienceByYongli

2、TangPostgraduateProgramSchoolofComputerCentralChinaNormalUniversitySupervisor:TingtingHeAcademicTitle:ProfessorSignatureApprovedMay2015万方数据华中师范大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中己经标明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的研究成

3、果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。作者签名:弛勿日期:眺年j月溜日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同意华中师范大学可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。/

4、、-作者张每永七钠骆彻红丁日期:砷I岁年三月7≯日日期:)c7f多年j月>苫日/的规定享受相关权益。回重诠塞提交卮进后;旦堂生;旦二生;旦三生发查!.作者骆帛永匆翱叛何衍町日期:wⅨ年多月≯≯日日期:凇年士月瑁日万方数据摘要随着互联网走入我国的千家万户以及移动互联网井喷式的发展,我国的信息社会经历了飞速的发展。同时,网络生活的不断丰富,越来越多的网络流行语从“线上’’走入到人们的“线下”生活中。网络流行语作为网络环境中的交际语言,简单实用、生动活泼,深受网民的追捧,在一定程度上影响着数字化时代文

5、化传播的方向,是网络文化的体现形式之一。研究网络流行语对于舆情分析、热点事件追踪以及语言演化规律研究等都有重要意义。目前有很多关于网络流行语的评选活动,但通常是通过问卷调查等人工评选方式来获取的,这种方式主观性强并且会耗费大量的人力物力。在这种背景下,使用机器学习的方法通过计算机辅助获取网络流行语来得到客观的网络流行语排名是具有重要的学术研究价值的。同时,流行语的自动获取作为一种基于自然语言处理研究上的应用性研究工作对计算语言学及中文信息处理的研究都具有重要意义。本文提出了一种使用计算机自动获取

6、网络流行语的模型,该模型以大规模网络语料库为基础,通过使用条件随机场模型对网络语料进行分词、网络百科平台规则提取词条信息、汉语输入法细胞词库的导出等步骤构建出网络流行语候选集。依据网络流行语在使用度分布上存在短时间内快速提升这一规律,对候选词语在不同时间节点的使用频度进行统计并按年度对候选词语建立概率模型,通过计算相邻时间段的模型间的KL距离对候选网络用语的流行程度进行度量并词语流行度得分,通过排序自动获取网络流行语。最后,依据中文网络流行语获取模型设计并实现了一个流行语流行度计算系统,该系统包

7、括网页信息抽取、网络用词频次统计、流行语流行度计算功能等模块。使用该系统对2014年度网络论坛大数据集进行实验的结果表明,本文提出的中文网络流行语获取模型能有效地识别网络流行语,自动获取的结果与人工协同标记的结果具有很高的一致性。由于该方法受调查者主观喜好的影响小,所以自动获取的结果排名甚至在一定程度上优于人工排序的结果,能更客观地反映语言在真实使用中呈现出的特点与规律。该模型不仅仅为计算机辅助判定词语的流行特性提供了参考依据,同时也提供了一种便捷获取中文流行语的途径。关键词:网络流行语;条件随

8、机场;时间分布;语言模型;KL距离万方数据AbstractWiththeboomofChina'sIntemetindustryandablowoutdevelopmentofthemobileIntemet,weareexperiencingadifferentlifestyleininformationage.Inthemeanwhile,moreandmorenetworkbuzzwordsenterpeople’Sdailylifegradually.Networkbuzzwordsar

显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭