基于网络爬虫的论坛数据分析系统的设计与实现

基于网络爬虫的论坛数据分析系统的设计与实现

ID:37033031

大小:2.30 MB

页数:65页

时间:2019-05-17

基于网络爬虫的论坛数据分析系统的设计与实现_第1页
基于网络爬虫的论坛数据分析系统的设计与实现_第2页
基于网络爬虫的论坛数据分析系统的设计与实现_第3页
基于网络爬虫的论坛数据分析系统的设计与实现_第4页
基于网络爬虫的论坛数据分析系统的设计与实现_第5页
资源描述:

《基于网络爬虫的论坛数据分析系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号学号M201676169学校代码10487密级硕士学位论文基于网络爬虫的论坛数据分析系统的设计与实现学位申请人:黎曦学科专业:软件工程指导教师:曹华副教授答辩日期:2018.12.17AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreefortheMasterofEngineeringTheDesignandImplementationofForumDataAnalysisSystemBasedonWebCrawle

2、rCandidate:LiXiMajor:SoftwareEngineeringSupervisor:Assoc.Prof.CaoHuaHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaDecember,2018华中科技大学硕士学位论文摘要游戏论坛是一个重要的玩家建议反馈渠道,通常游戏开发者都需要密切关注论坛舆论风向来发现游戏中存在及潜在的问题,然而论坛数据质量参差不齐,人工从大量论坛帖子中发现收集有价值的帖子信息需要消耗一定的时间

3、和精力,还容易出现纰漏,为了更加敏捷高效的对论坛玩家反馈的有效信息作出相关反馈,如何自动化获取论坛数据并对数据作出相关筛选分析成为提升工作效率的一个关键途径。该系统主要实现了对游戏建议反馈论坛数据的分析处理,包括数据提取,数据分析和分析结果展示三个主要模块。系统开发使用Python开发工具PyCharm与MySQL数据库管理系统,用到的相关Python库主要包括jieba自然语言处理工具库、操作MySQL数据库的PyMySQL库和用于绘制词云图的wordcloud库。系统通过网络爬虫将论坛数据内容爬

4、取出来,利用BeautifulSoup库对数据进行解析,从中提取出待分析的数据并保存到数据库中,利用jieba库对待分析的数据进行中文分词处理,在此基础上对分词结果进行价值评分,并将结果通过html的形式展示出来,另外还可以根据不同筛选条件通过词云图展示出满足条件的高频词汇,使用户可以快速掌握论坛高频信息。系统对论坛数据进行了有效的提取及分析处理,系统的实现使得论坛数据获取更加方便快捷和直观,在一定程度上节省了相关数据关注者在人工筛选帖子内容时投入的时间和精力,提升工作效率。关键词:网络爬虫中文分词

5、词云图I华中科技大学硕士学位论文AbstractGameforumisanimportantfeedbackchannelforplayers'suggestions.Usuallygamedevelopersneedtopaycloseattentiontothetrendofpublicopinionintheforumtofindouttheexistingandpotentialproblemsinthegame.However,thequalityofforumdataisuneven.M

6、anualcollectionofvaluablepostinformationfromalargenumberofforumpostsrequiresacertainamountoftimeandeffort,andispronetoerrors.Inordertoprovidemoreagileandefficientfeedbacktotheeffectiveinformationfeedbackfromforumplayers,howtoautomaticallyacquireforumda

7、taandmakerelevantscreeninganalysisofthedatahasbecomeakeywaytoimproveworkefficiency.Thesystemmainlyrealizestheanalysisandprocessingofgamesuggestionfeedbackforumdata,includingthreemainmodules:dataextraction,dataanalysisandanalysisresultsdisplay.Pythondev

8、elopmenttoolPyCharmandMySQLdatabasemanagementsystemareusedinthesystemdevelopment.TherelevantPythonlibrariesusedmainlyincludethenaturallanguageprocessingtoolkitJiebalibrary,theoperationofMySQLdatabasetoolkitPyMySQLlibraryandthewordcloudl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。