BBS论文BBS热点话题发现与监控系统

BBS论文BBS热点话题发现与监控系统

ID:41081210

大小:25.50 KB

页数:4页

时间:2019-08-15

BBS论文BBS热点话题发现与监控系统_第1页
BBS论文BBS热点话题发现与监控系统_第2页
BBS论文BBS热点话题发现与监控系统_第3页
BBS论文BBS热点话题发现与监控系统_第4页
资源描述:

《BBS论文BBS热点话题发现与监控系统》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、BBS论文:BBS热点话题发现与监控系统【中文摘要】互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看,BBS是现实社会的镜像,因而可以采集BBS中的数据,为BBS舆情分析提供数据基础。本文实现的热点话题发现、话题监控功能都是以BBS实时数据为基础的。本文在分析国内外BBS热点话题发现与监控现状和发展的基础上,从系统的整体设计和实现过程入手,深入分析系统结构设计和系统处理流程等方面的问题。本文的主要研究内容如

2、下:(1)BBS数据采集:数据采集是整个热点话题发现与监控系统的基础,本文利用传统网络爬虫的运行原理,并结合论坛的特征,提出基于论坛版块扩展的BBS数据采集策略,实现对BBS论坛的高效采集。(2)BBS数据预处理:采集所得的数据为非结构化数据,系统需要对其处理,使之转化为结构化数据。预处理部分主要包括页面信息抽取和文本向量表示两个主要步骤。(3)BBS热点话题发现:话题识别是热点话题发现的关键步骤,本文采用Single-Pass聚类算法进行话题识别,在实际应用时针对原算法存在的缺陷做了相应改进,并给出实验结果...【

3、英文摘要】TherapiddevelopmentofInternetisahelpfultoolforpopularizingBBS.Atpresent,BBShasbecomeapopularcommunicationtool.ThroughtheBBS,usercouldlanchanewtopicorreplytoexistingtopicstoexpressideasoftopics.Tosomeextent,BBSisamirrorofrealsociety.Thereal-timedataonBBScan

4、becollectedwhichprovidescertaindatabasefortheresearchoftheBBShottopicdetection.Inthispaper,hottopicdetectionandmonitoringfunctionarebasedonreal-timedataofBBS.Basedo...【关键词】BBSWeb文本挖掘爬虫聚类热点话题发现话题监控【英文关键词】WebrawlerBBSWebtextminingclusteringalgorithmshottopicdetec

5、tionhottopicmonitoring【目录】BBS热点话题发现与监控系统致谢5-6中文摘要6-7ABSTRACT71绪论11-161.1研究背景和意义11-121.1.1课题研究的背景11-121.1.2课题研究的意义121.2国内外研究现状12-131.3论文的主要工作及组织结构13-162相关技术介绍16-332.1Web文本挖掘技术16-212.1.1Web文本挖掘过程16-172.1.2文本挖掘关键技术17-212.2网络数据采集技术介绍21-282.2.1网络爬虫技术21-252.2.2页面信息抽取

6、技术25-262.2.3URL语法解析及分类算法26-282.3热点话题发现技术28-312.3.1话题检测与跟踪相关概念28-292.3.2热点话题发现相关算法29-312.4系统开发工具介绍31-322.4.1HtmlParse介绍312.4.2正则表达式31-322.4.3ICTCLAS汉语分词系统322.5本章小结32-333BBS热点话题发现与监控系统设计33-383.1系统总体设计33-343.1.1系统功能介绍333.1.2系统总体设计33-343.2系统模块划分34-373.2.1信息采集模块34-3

7、53.2.2数据预处理模块35-363.2.3热点话题发现模块363.2.4热点话题监控模块36-373.3本章小结37-384BBS数据采集及预处理的实现38-554.1BBS数据爬取38-414.1.1BBS逻辑结构分析38-394.1.2BBS信息采集策略39-404.1.3版面链接URL的识别40-414.1.4重复链接的处理414.2BBS信息预处理41-504.2.1常见论坛帖子元素分析41-434.2.2获取数据分类及数据库表的设计43-474.2.3基于模板的网页信息抽取47-494.2.4中文词法分

8、析494.2.5停用词的过滤49-504.3实验结果及分析50-544.4本章小结54-555BBS热点话题发现与监控的实现55-695.1热点话题发现55-645.1.1BBS文本表示55-565.1.2相似度计算56-575.1.3基于Single-Pass改进算法的话题识别57-585.1.4聚类结果实现及分析58-625.1.5热度评估

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。