欢迎来到天天文库
浏览记录
ID:25753619
大小:574.50 KB
页数:12页
时间:2018-11-22
《目录详细设计说明书》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、目录1引言22系统的结构23网页信息采集及数据预处理模块设计说明34候选话题发现模块设计说明65话题能量计算模块设计说明96热点话题排序模块设计说明11详细设计说明书1引言1.1编写目的a.定义系统总体开发过程,作为开发人员项目开发的基础;b.撰写此文档的目的在于让开发人员明确开发过程,各部分接口及数据传递过程;c.作为软件总体测试和项目验收的依据;1.2背景a.待开发软件系统的名称:BBS热点话题发现系统b.本项目的用户:网站访问者1.3定义a.BBS话题:BBS话题是由一个或者多个讨论类似内容的BBS主题集合1.4参考资料a.项目需求分析报告2系统的结构如图2-1为BBS热点话题发现系
2、统的框架图:图2-1BBS热点话题发现系统的框架图3网页信息采集及数据预处理模块设计说明3.1程序描述网页信息采集及数据预处理子系统主要分为:网页数据采集、网页文本解析、网页文本分词及去除停用词四部分。3.2功能如下图3-1为网页信息采集及数据预处理子系统的IPO图:图3-1网页信息采集及数据预处理子系统的IPO图3.3性能本模块采用多线程的方式,同时对数据进行解析、分词、过滤的操作,大大提高了运行速度,使得系统可以快速的处理大量数据;3.4流程逻辑图3-2网页信息采集及数据预处理子系统流程图3.5接口用图的形式说明本程序所隶属的上一层模块及隶属于本程序的下一层模块、子程序,说明参数赋值和
3、调用方式,说明与本程序相直接关联的数据结构(数据库、数据文卷)。1.ICTCLAS接口调用;Ø将下载的API文件拷到系统根目录下;Ø将ICTCLAS类放入相应接口路径下;Ø加载dll文件;1.数据库接口及相关数据结构数据库表结构设计如下:Post表:名类型允许为空意义PidIntno主键subIDVarcharYes识别每个帖子的唯一标识topicIDVarcharYes主题帖标识urlVarcharYes帖子的URLBoardVarcharYes帖子所在版面TitleVarcharYes帖子标题authoridVarcharYes发帖人idAuthornameVarcharYes发帖人名
4、ContentTextYes帖子内容IssuetimeDatetimeYes帖子发表时间QuerytimedatetimeYes插入数据库时间IPvarcharYes发帖IPWord表:名类型允许为空意义widIntNo主键sPOSVarcharYes词性wordvarcharYes词语PostSeg表:名类型允许为空意义psidIntNo主键pidIntNoFKwidintNoFKweightDoubleYes词语在文档中的权值segtimeDatetimeYes分词过滤时间typevarcharyes词语在帖子中的位置3.6限制条件由于mysql数据库单表不能超过4G的限制,本程序将数
5、据存储后不能超过4G;3.7尚未解决的问题ICTCLAS不能开启多线程调用;4候选话题发现模块设计说明4.1程序描述在数据处理完成之后,对需处理的时间片依次聚类,探测话题的存在,以找出热点话题。4.2功能如下图4-1为候选话题发现模块的IPO图图4-1候选话题发现模块IPO图4.3性能由于采用单边增量聚类的方法,每个时间片处理的数据量缩减,使得聚类速度加快;4.4算法1.增量向量空间模型对分词后的主题进行文本表示,应用改进后的TFIDF评估函数对各主题的词项进行特征提取。改进后的TFIDF计算主题的词项权重:其中,表示词项j在本主题出现的频数;表示词项j在单个主题出现的最大频数;表示词j所
6、处的文档位置的权重(标题,正文等);表示所有位置权重的最大值;表示命名实体的权重(人命名、地名、机构名);表示主题集中主题总数;表示包含词项j的主题数;表示词项j在主题d中的频数;表示词项j的逆主题频数;表示词项j在主题d中的权重;随BBS数据处理时间推移变化,需动态更新:其中,表示词项j在t时刻的主题频数;表示词项j在t-1时刻的主题频数;表示在t时间片中新加入的BBS主题个数。话题的词项权重更新方法:其中,表示词项j在以探测到的话题T中的权重;表示词项j在新进入的主题d中的权重;表示参数,取值范围在0到1之间。1.增量单边聚类一个话题的所有主题在时间上具有连续性,故只要比较与新主题时间
7、相邻的话题与新主题之间的相似性。热点话题的提取过程按时间次序依次进行,聚类形成的候选话题都需要经过能量的更新和衰变,所以与新主题比较的是上一个时间片进行能量计算后尚存活的话题。Ø算法步骤:1)主题到来后,依照对该主题进行空间向量表示,形如(,创建一个包含主题的话题簇。2)新主题到来,根据更新方法更新,对主题进行增量向量空间表示。3)根据上一个时间片结束时尚存活的候选话题簇类集,计算新主题与每个簇类的相似度,大于一定阈值,
此文档下载收益归作者所有