欢迎来到天天文库
浏览记录
ID:50429309
大小:2.86 MB
页数:61页
时间:2020-03-06
《基于网络爬虫的内容资源评价研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于网络爬虫的内容资源评价研究胡博2015年12月中图分类号:G40-057UDC分类号:378基于网络爬虫的内容资源评价研究作者姓名胡博学院名称继续教育学院指导教师李小平教授答辩委员会主席李小平教授申请学位教育学硕士学科专业教育技术学学位授予单位北京理工大学论文答辩日期2015年12月ContentresourceevaluationbaseonWebCrawlerCandidateName:BoHuSchoolorDepartment:SchoolofContinuingEducationFacultyMentor:Prof.Xia
2、opingLiChair,ThesisCommittee:Prof.XiaopingLiDegreeApplied:MasterofEducationMajor:EducationalTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:December,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北
3、京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要随着互联网和计算机技术的快速发展,网络信息的爆炸式膨胀,结合网络抓取技术和文本分析技术实现对内容资源的评价已经成为研究热点。利用这种评价模式对教学评价、影视评价、文学评价等都有重要意义。本课题来源于科技部项目《内容银行评估系统》,本文将对基于网络信息的评价模式做出具体分析,并对评价模式中的网络数据抓取和文本分析技术做出重点研究和设计实现。利用网络信
4、息实现内容资源评价的首要工作就是对网络数据的获取,为了获得更加广泛、全面的网络数据,针对传统互联网和移动互联网信息,本文设计了不同的数据获取方式。采用网络爬虫来按规则的抓取传统互联网数据,为了使爬虫适应多种网站结构、突破各种网络站点的限制,设计并实现了一种“通用”的定向网络爬虫;对于移动互联网信息采取基于代理的数据包截取方式来取得数据,利用模拟按键的方式让移动客户端自动请求数据,通过代理服务器截取需求站点的数据包,并实现数据包的解析。经过实验验证,系统可以高效稳定的实现数据的定向获取。在获取大量数据之后,通过对数据的解析、过滤、去重等处
5、理,利用文本分析技术对数据主题进行分析。本文重点研究了关键词提取和文本倾向判断方法,关键词的抽取可以快速的定位文本主题、找出主题的关联性,通过比较两种常用的关键词提取方法,根据优劣性对不同的数据选择不同方法;利用朴素贝叶斯分类器实现了文本倾向性判定,并通过统计正负向文本数量实现对主题社会舆论倾向性的判断。经过实验验证,分析结果符合预期,为以后更复杂的文本分析打好了基础。最后,运行部署完成的系统,得到了稳定的数据源数据以及较好文本分析结果,对内容资源评价研究有一定的意义,尤其是在教育技术与新媒体结合的发展趋势下,该成果对教育资源的评价评估
6、具有有重要价值。关键词:网络爬虫;代理服务器;内容资源评价;文本分析;关键词抽取I北京理工大学硕士学位论文AbstractWiththerapiddevelopmentofInternetandcomputertechnology,thenetworkinformationisexploding,combinedwiththenetworkcapturetechnologyandtextanalysistechnologytoachievetheevaluationofcontentresourceshasbecomehotresear
7、chfields.Theuseofthismethodissignificanttotheresearchofteachingevaluation,filmandtelevisionevaluation,literatureevaluationandsoon.ThetopicofthispapercomesfromtheprojectoftheMinistryofscienceandtechnologyproject"ContentbankEvaluationSystem",thispaperwillmakeadetailedanaly
8、sisoftheevaluationmodebasedonthenetworkinformation,andmaketheresearchanddesignofthenetworkdatacapturean
此文档下载收益归作者所有