欢迎来到天天文库
浏览记录
ID:37033031
大小:2.30 MB
页数:65页
时间:2019-05-17
《基于网络爬虫的论坛数据分析系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号学号M201676169学校代码10487密级硕士学位论文基于网络爬虫的论坛数据分析系统的设计与实现学位申请人:黎曦学科专业:软件工程指导教师:曹华副教授答辩日期:2018.12.17AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreefortheMasterofEngineeringTheDesignandImplementationofForumDataAnalysisSystemBasedonWebCrawle
2、rCandidate:LiXiMajor:SoftwareEngineeringSupervisor:Assoc.Prof.CaoHuaHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaDecember,2018华中科技大学硕士学位论文摘要游戏论坛是一个重要的玩家建议反馈渠道,通常游戏开发者都需要密切关注论坛舆论风向来发现游戏中存在及潜在的问题,然而论坛数据质量参差不齐,人工从大量论坛帖子中发现收集有价值的帖子信息需要消耗一定的时间
3、和精力,还容易出现纰漏,为了更加敏捷高效的对论坛玩家反馈的有效信息作出相关反馈,如何自动化获取论坛数据并对数据作出相关筛选分析成为提升工作效率的一个关键途径。该系统主要实现了对游戏建议反馈论坛数据的分析处理,包括数据提取,数据分析和分析结果展示三个主要模块。系统开发使用Python开发工具PyCharm与MySQL数据库管理系统,用到的相关Python库主要包括jieba自然语言处理工具库、操作MySQL数据库的PyMySQL库和用于绘制词云图的wordcloud库。系统通过网络爬虫将论坛数据内容爬
4、取出来,利用BeautifulSoup库对数据进行解析,从中提取出待分析的数据并保存到数据库中,利用jieba库对待分析的数据进行中文分词处理,在此基础上对分词结果进行价值评分,并将结果通过html的形式展示出来,另外还可以根据不同筛选条件通过词云图展示出满足条件的高频词汇,使用户可以快速掌握论坛高频信息。系统对论坛数据进行了有效的提取及分析处理,系统的实现使得论坛数据获取更加方便快捷和直观,在一定程度上节省了相关数据关注者在人工筛选帖子内容时投入的时间和精力,提升工作效率。关键词:网络爬虫中文分词
5、词云图I华中科技大学硕士学位论文AbstractGameforumisanimportantfeedbackchannelforplayers'suggestions.Usuallygamedevelopersneedtopaycloseattentiontothetrendofpublicopinionintheforumtofindouttheexistingandpotentialproblemsinthegame.However,thequalityofforumdataisuneven.M
6、anualcollectionofvaluablepostinformationfromalargenumberofforumpostsrequiresacertainamountoftimeandeffort,andispronetoerrors.Inordertoprovidemoreagileandefficientfeedbacktotheeffectiveinformationfeedbackfromforumplayers,howtoautomaticallyacquireforumda
7、taandmakerelevantscreeninganalysisofthedatahasbecomeakeywaytoimproveworkefficiency.Thesystemmainlyrealizestheanalysisandprocessingofgamesuggestionfeedbackforumdata,includingthreemainmodules:dataextraction,dataanalysisandanalysisresultsdisplay.Pythondev
8、elopmenttoolPyCharmandMySQLdatabasemanagementsystemareusedinthesystemdevelopment.TherelevantPythonlibrariesusedmainlyincludethenaturallanguageprocessingtoolkitJiebalibrary,theoperationofMySQLdatabasetoolkitPyMySQLlibraryandthewordcloudl
此文档下载收益归作者所有