欢迎来到天天文库
浏览记录
ID:35174697
大小:5.24 MB
页数:41页
时间:2019-03-20
《基于图书评论文本分析的语义词典建构的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代嘶10^学校名称:北巧巧大学分类号:IP311.52013102820m:东知作滋sfe畫硕±学位论文i乂于西带件论义本分折巧巧义谗典次狗的巧免Researchones化blishinSemanticgDictionarybasedonbookreviewsanalsisy作者:巧佳南指导教师:李巧巧巧巧一,级学科;软件工程二级学科:软件工程研究方向:巧育大巧巧化理学位类型:学术硕±东北师范大学学位评定委员
2、会2016年6月,■.一?:■苗—■■-*.-.‘.■..V-■..-'■..、?-..■.1-'.一.、、..-■?■?.,’'.V,学校代码:10200学校名称:东北师范大学20282Q分类号:TP311.5研究生学号:13I0东批證rk這硕±学位论文基于西书评论文本分化的语义词典藻巧的研免ResearchonestablishinSemanticD
3、ictionargybasedonbookreviewsanalysis作者:郝佳南指导教师;李雁巧教巧一级学科:软件工程1二级学科:软件工程研究方向:教育大数据处理学位类型:学术硕±东北师范大学学位评定委员会2016年6月独创性声明本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取得的成果。据我所知,除了特别加标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研巧成果。对本人的研究做出重要贡。献的个人和集体,
4、均已在文中作了明确的说明本声明的法律结果由本人承担。学位论文作者签名:部軒日期:、T中学位论文使用授权书本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,旨P:东北师范大学有权保留并向国家有关部口或机构送交学位论文的^。复印件和电子版,允许论文被查阅和借阅本人授权东北师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可W采用影印、缩印或其它复制手段保存。、汇编本学位论文(保密的学位论文在解密后适用本授权书)jp学位论文作者签名指导教
5、师签名0期:曰期:学位论文作者毕业后去向;:电话工作单位;通讯地址:邮编:摘要图书在每个人的学习生涯中扮演着重要的角色,网上更是有着大量针对于图书的评论,如何从繁杂的评论中获取关键信息成为了学者和专家关注的焦点。想要用机器自动HowNetW处理的方式进行自然语言的信息解读离不开词典的支持,现有的、ordNet等权威语义词典都属于通用的词典,在图书评论这个专向领域进行使用,可能会存在专业性、HowNeWor不强效率较低的诸多问题。本文就是针对这
6、些情况,结合t、dNet的词典构一个基于网络图书评论文本分析的专用语义词典的方法造原理,研究并提出构建,使其可用于后续图书评论的工作。本文所完成的主要工作有:(1)针对最常见的四个含有图书信息的网站,分析其网页格式和数据特点,选择当当和京东两个网站作为图书评论数据来源,改进现有爬虫程序,选择正确的爬取策略,获取大量图书评论数据,按格式存入数据库中。(2)根据语义词典的构建思想,对采集到的数据,进行数据清洗,留存有价值的评论数据,进行中文切词和词性标注的处理,制定信息抽
7、取规则,抽取出所需髙频词。(3)按照词汇的词性和语义进行高频词分类,将其置于对应的分类词典中,根据词汇间关系完成词汇的扩充和语义词典结构的构建,利用构建好的语义词典对现有图书评论文本进行分析,从而验证构建出的语义词典的有效性。本文对采集到的3000多万条的图书评论信息进行研究和数据处理,提出专用图书评价语义词典的构建方法,经过实验验证,得到的词典可W用于简单圏书评论语料的分析,为后续图书评价的工作提供了有效的数据支持。关键词;图书评论义词典络爬虫中文切词;语;网;Ab
8、stractiBookslaanimportantroleineveryoneslearnincareertherearealare拟阻比妊ofpyg,gonlinebookreviews,howtoobtainkeyinformationfromthecomlexcommentsbecomethepfocusofattentionofscholarsandexperts.Themach
此文档下载收益归作者所有