bbs热点话题发现和监控系统

ID：20644125

大小：6.65 MB

页数：65页

时间：2018-10-14

上传者：U-22107

资源描述：

《bbs热点话题发现和监控系统》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

中文摘要摘要：互联网的飞速发展为BBS的普及提供了条件，目前BBS己经成为一种常用的交流工具，网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看，BBS是现实社会的镜像，因而可以采集BBS中的数据，为BBS舆情分析提供数据基础。本文实现的热点话题发现、话题监控功能都是以BBS实时数据为基础的。本文在分析国内外BBS热点话题发现与监控现状和发展的基础上，从系统的整体设计和实现过程入手，深入分析系统结构设计和系统处理流程等方面的问题。本文的主要研究内容如下：(1)BBS数据采集：数据采集是整个热点话题发现与监控系统的基础，本文利用传统网络爬虫的运行原理，并结合论坛的特征，提出基于论坛版块扩展的BBS数据采集策略，实现对BBS论坛的高效采集。(2)BBS数据预处理：采集所得的数据为非结构化数据，系统需要对其处理，使之转化为结构化数据。预处理部分主要包括页面信息抽取和文本向量表示两个主要步骤。(3)BBS热点话题发现：话题识别是热点话题发现的关键步骤，本文采用Single。Pass聚类算法进行话题识别，在实际应用时针对原算法存在的缺陷做了相应改进，并给出实验结果及和分析。在话题识别的基础上，综合话题包含的主题贴子数、参与讨论的Ⅲ数、回复数、浏览数等信息，对话题进行热度评分，筛选出论坛中的热点话题。(4)BBS热点话题监控：本文采用基于自主学习的INN增量分类算法来实现对BBS热点话题的监控。关键词：BBS；Web文本挖掘；爬虫；聚类；热点话题发现；话题监控分类号：TP319 ABSTRACTABSTRACT：TherapiddevelopmentofIntemetisahelpfultoolforpopularizingBBS．Atpresent,BBShasbecomeapopularcommunicationt001．ThroughtheBBS，usercouldlanchanewtopicorreplytoexistingtopicstoexpressideasoftopics．Tosomeextent，BBSisamirrorofrealsociety．Thereal-timedataonBBScanbecollectedwhichprovidescertaindatabasefortheresearchoftheBBShottopicdetection．Inthispaper,hottopicdetectionandmonitoringfunctionarebasedonreal-timedataofBBS．BasedontheanalysisofthedomesticandinternationaldevelopmentandstatusofIntenethottopicdetectresearch,thisissuedeeplyanalyzehowtodesignaneffectivearchitectureoftheBBShottopicdetectionandmonitoringsystemandwhatisthepropersystemprocessinthisthesis．Themaincontentofthispaperareasfollows．(1)BBSdatacrawling．Datacrawlingisthebaseofthissystem．Thispaperutilizesthecrawlerprincipleandforumfeatures，postaBBSdatagatheringstrategy,andusethismethodgatheringtheBBSwitll11ighefficiency．(2)BBSdatapreprocessingThroughdatacrawling，systemcallgetunstructureddata,itisneedtopreprocessthisdataandchangeitintostructureddata．Thismoduleincludestwomainsteps，dataextractingandfeaturewordsselecting．(3)BBShottopicdetection．Topicdetectionisakeystepinhottopicdetection．ThispagesuseSingle—Passclusteringalgorithmtodetecttopic．Thenthehotnessoftopicsisscoredaccordingtotopicinformationincludingthenumberoftheposts，thenumberofvaluableposts，thereplysandtheviews．(4)BBShottopicmonitoring．Auto-learning—basedincrementalclassifyingalgorithmINNisstudiedtoimplementBBStopicmonitoringKEYWORDS：Webrawler,BBS，Webtextmining，clusteringalgorithms，hottopicdetection，hottopicmonitoringCI．ASSNo：TP319 致谢本论文的工作是在我的导师贾卓生老师的悉心指导下完成的，贾卓生老师的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢二年来贾卓生老师对我的关心和指导。贾卓生老师指导我完成了实验室的科研工作，在学习上和生活上都给予了我很大的关心和帮助，在此向贾老师表示衷心的谢意。在实验室工作及撰写论文期间，王佳、杨延昭、薛镭对我论文的研究工作给予了热情帮助，在此向他们表达我的感激之情。另外也感谢家人和朋友，他们的理解和支持使我能够在学校专心完成我的学业。最后还要感谢在交大这些年来所有曾经帮助过我的老师、同学和朋友。 1绪论1．1研究背景和意义1．1．1课题研究的背景根据中国互联网络信息中心(CNNIC)的统计，截至2010年12月，中国网民规模达N4．57亿，互联网普及率攀升至34．3％，较2009年提高5．4个百分点。其中有14817万网民(32．4％)访问论坛／BBS，其中近6000万人(23．4％)在BBS中发贴Ⅲ。BBS(BulletinBoardSystem，即电子公告牌系统)建立在互联网上，面向社会各界公众，用户可通过BBS发布消息，参与讨论，不仅可以发表个人看法，还可以获取信息、交流情感。与传统的传播媒介相比，论坛具有很强的开放性和互动性，用户只要注册ID就可以通过发表贴子的方式来表达自己观点并参与讨论，同时这种观点的表达具有匿名性质，因此论坛的言论一般都大胆、坦率，最能表达网民真实的观点。目前，BBS逐渐成为普通民众表达个人观点和意愿的主流媒体。由于论坛通常缺少有效的限制和监督，发言者身份隐蔽，一些网民在现实生活中遇到挫折，或对社会问题认识偏激，都可能到论坛中发表贴子进行宣泄，因此论坛中较容易出现片面、偏执和消积的言论。如果不及时加以引导，一个热点事件的出现加上一些情绪化的意见就可以成为点燃一片舆论的导火索，对社会公共安全形成较大威胁。对各级党政机构来说，在国家政治民主化迅速推进的进程中，可以通过BBS等各种现代化的网络信息平台获取舆情，使政府相关部门准确迅速地分析和应对各种突发事件，从而维护社会稳定、促进国家发展。但是，仅依靠人工方法难以应对网络中海量信息的收集和处理，需要对相关技术进行研究，形成一套自动化的BBS热点话题发现与监控系统，以及时应对网络舆情，由被动防堵化为主动梳理、引导。近年来，专家学者一直在致力于研究更加有效的方法，其中基于语义的内容识别方法是当前研究的重点，虽然也取得了较大进展，但仍存在很多问题和困难需要克服。为了增加我国网络信息控制能力，必须迎难而上，加强相关技术的研究。 1．1．2课题研究的意义研究表明，网络热点事件的首发主体中1／3左右来自网民，网民发布信息主要依赖的是论坛，因此对用户参与较多的热门论坛进行研究具有重要的价值和意义。对个人而言，BBS热点发现能使用户及时、方便地获取当前社会中比较重要的热点信息；对企业而言，通过对特定论坛的热点发现可以让企业更迅速地掌握相关领域的发展动态、用户关注的热点技术从而提高企业的竞争力；对国家而言，BBS热点发现具有更加重大的意义，可以帮助政府相关部门及时了解当前社会重要事件和舆论方向，有助于相关部门迅速进行舆论引导，发扬积极、健康向上的舆论，抑制消极、片面的舆论。目前，几乎所有国内门户网站都开设有BBS论坛，全国BBS论坛数量已超过百万个，位居全球之首。而且通过对百度贴吧、天涯社区、新浪论坛等国内热门论坛的贴子信息进行分析可知网络舆情具有较大传染性。虽然各个论坛受众和定位存在较大差别，但网民对社会热点话题的关注点、价值取向呈现惊人的相似。此外，现实社会中的热点话题，往往在BBS上也会形成大量的帖子。因此，可以说BBS是现实社会的真实反映，研究BBS热点信息发现对研究整个社会的网络舆情状况具有十分重要的意义。1．2国内外研究现状热点话题挖掘(HotTopicMining)较早出现在话题识别与跟踪(TDT，TopicDetectionandTracking)领域，TDT是由美国国防高级研究计划倡导的一项研究，用以应对日益严重的互联网信息爆炸问题，对新闻媒体信息流进行新话题的自动识别和己知话题的持续监控眩1。但TDT的研究对象主要是网络形式的新闻报道，而新闻报道与BBS在结构和语言特点上有较大差别。在BBS热点话题挖掘方面，日本东京大学的NaohiroMatsa教授等人提出影响力传播模型(IDM，InflueneeDiffusionMode)用于发现BBS上有影响力的人物和话题口]。该模型用帖子中的关键词来反映了作者的观点，帖子关键词传递的多少反映了影响的程度的高低。IDM模型的着眼点是用户间的交互模式，通过分析帖子或者用户间的影响力传递来发现焦点人物或者热点话题。2005年，蒋凡等人利用IDM模型设计并实现了一个BBS主题发现原型系统口们，但该方法需要多次计算词语间的影响力，并不断构造和修改词语图，计算复杂度较大，不适合用于大规模文本的计算。国外的新闻组跟BBS的结构类似，为提高对新闻组中大量信息的利用率，Zukerman等人采用了信息检索中的文档聚类方法M1，首先用向量空2 间模型来表示新闻组中的讨论帖子，然后用K-Means方法对贴子进行聚类，聚为一类的帖子被认为有相似的话题，最后用F．score方法对聚类结果进行评价。在国内，吴立德等人提出使用BP神经网络算法来发现BBS上的热点话题巧1。该算法首先抽取BBS中每个帖子的标题、内容、作者、发表时间等元数据，并过滤垃圾帖、无关帖。其次使用K-Means算法对向量空间模型表示后的帖子进行聚类，其中关键词的权重计算采用了经典的TF．IDF算法，该算法同样认为被聚为一类的帖子属于相同的话题，最后通过与人工标签的比较来评价聚类结果并对聚类得到的各个话题采用BP神经网络算法进行热度分类。在选取热点话题影响因子时，该算法采用相关性分析消除冗余因子，选取了话题包含的主贴数、贴子回复数、发贴人数、平均作者等级、平均发帖间隔等因子。但是，BP算法需要大量的训练集且训练时间较长。邱立坤等人考虑到在BBS的标题、主题内容、回帖出现的词分别有着不同的重要性，相应地改进了传统的向量空间模型；另外，采用非增量的Single—Pass聚类算法对话题进行聚类，然后以各话题中平均相似度最高的帖子的标题作为该话题的标题；最后利用BBS特有的点击数、回复数进行热度排序，并采用基于标题特征词提取的话题归并，对同一主题中不同角度的话题进行归类[63。以上研究均是直接对BBS中帖子各项信息进行处理，并没有提到如何从Web网页上自动获取这些信息。分析来看，目前网络舆情热点在实践上的研究主要集中在中文信息处理与数据挖掘领域，这两个领域从不同角度对网络舆情进行研究，同时又相互渗透，相互借鉴。1．3论文的主要工作及组织结构本文根据BBS热点话题发现与监控的需求，提出了一个BBS热点话题发现系统与监控系统，其主要的功能有BBS信息采集，BBS热点话题发现和监控。本文将结合系统的整体设计和实现过程，详细介绍BBS热点话题发现与监控系统中关键辅助模块，重点阐述热点信息发现模块采用的模型、设计结构、关键技术和软件实现方法。论文的各章节组织结构和内容如下：第一章绪论阐述论文的选题背景和研究意义。考察国内外BBS热点话题发现与监控相关理论的研究现状，发展前景，并提出论文研究的主要目的、内容和基本思路。第二章相关技术介绍论述本系统开发过程中需要用到的一些相关技术，主要包括：Web文本挖掘3 技术、网络数据抓取技术以及热点话题发现技术。阐述了Web文本挖掘的一般过程以及每个过程的关键技术；介绍常用网络爬虫的分类及各爬虫实现原理；深入分析热点话题的实现原理以及常用算法。第三章BBS热点话题发现与监控系统设计分析了系统功能和业务流程，进行系统设计。根据系统功能进行模块划分，并对各功能模块进行介绍。第四章BBS数据采集及预处理的实现深入研究论坛结构，提出了基于论坛版块扩展的BBS数据采集方法。分析主流论坛系统贴子特点，采用基于模拟匹配的数据抽取方法对采集所得文本进行处理，并用向量空间模型对文本进行表示。第五章BBS热点话题发现与监控的实现深入分析Single．Pass聚类算法，对其存在的缺陷进行相应改进，并用改进的算法来对BBS进行话题识别。在话题识别的基础上，分析BBS贴子内容特征，选择相因的参数对话题进行评估，筛选出论坛热点话题。采用INN算法对指定话题进行实时监控。第六章结论及展望归纳总结全文，阐明论文的创新，提出论文尚需进一步研究的问题。论文的研究框架如图1．1所示：4 图1．1研究的理论框架Fig．1-ITheoreticalFrameworkofResearch5 2相关技术介绍2．1Web文本挖掘技术Web文本挖掘是指借鉴数据挖掘的基本思想和理论方法，从大量非结构化、异构的Web文档集合中发现有效的、新颖的、潜在可用的及可理解的知识的非平凡过程明3。Web文本挖掘是一门涉及到Web、数据挖掘、计算机语言学、信息学、自然语言处理、数据抽取、信息检索、统计学、人工智能、机器学习、神经网络等多个领域的综合技术。2．1．1Wreb文本挖掘过程Web文本挖掘的对象是大量的HTML文档集合。挖掘过程可分为如下几个步骤：Web文档的采集和预处理、特征的表示和提取、数据挖掘、模式评估、知识表示和应用。Web文本挖掘处理流程如图2．1所示。图2．1Web文本挖掘的流程Fig．2．1WebTextMiningProcess(1)Web文档的采集和预处理6 Web文档采集通常用爬虫程序来实现。爬虫程序能利用网页中的超链接自动采集相关主题的网页。为提高采集数据的质量，可在采集过程中对文本作一些预处理，如清除Web页面上的脚本程序、图像文件等，也可根据具体的应用目的对网页进行相应的预处理。(2)Web文档的特征表示和特征选择文本特征是指关于文本的元数据，分为描述性特征和语义性特征噶1。Web文档多为非结构化或半结构化的数据，在进行W曲文本挖掘前，需对这些非结构化的文本数据进行处理，转化为结构化转化的数据。特征表示就是用特征项来表示文档信息，将文本由非结构化转变为结构化的处理过程。特征表示模型有多种，常用的有向量空间型、概率型、布尔逻辑型以及混合型等。(3)数据挖掘Web文本挖掘是对大量Web文档进行分类、聚类、关联分析以及对Web文档进行自动文摘的过程。从挖掘对象上看，Web文本挖掘可分为两类：基于单文档的数据挖掘和基于文档集的数据挖掘。前者在挖掘过程中只针对单一文档进行分析，并不涉及其它文档，挖掘技术有文本摘要技术、信息提取技术。基于文档集的数据挖掘的对象是大规模文档，挖掘过程中需要对所有数据进行模式抽取，挖掘技术主要文本信息过滤、文本聚类、文本分类、文档作者归属、因子分析等。从功能上看，Web文本挖掘主要针对Web上少量文档集合的内容进行总结、分析，并利用这些Web文档进行趋势预测。(4)模式评估挖掘所得的模式需要进行评估，从中挑选出有价值的模式呈现给用户。(5)知识表示和应用反馈的结果需要用可视化的方式呈现给用户，同时提供信息导航功能，在最大程度上为用户浏览和获取信息提供便利。2．1．2文本挖掘关键技术Web文本信息的抽取是Web文本挖掘的基础，文本的特征提取与表示是Web文本挖掘的重要步骤，文本分类与文本聚类是两种最重要、最基本的挖掘功能，另外，Web文本挖掘中涉及中文分词等技术，本节分别对涉及的技术进行介绍。1．W．eb文本信息抽取信息抽取(InformationExtraction，简称m)是指根据需要在各种不同的文本中定位、识别和提取出信息点，并将其表示成一种统一的、结构化的形式，即原7 始文本经过信息抽取系统后得到格式固定的信处点。Web信息抽取(w曲informationExtraction，简称wrebIE)是将Web作为信息源的一类信息抽取。详细介绍见2．2．2节。2．分词技术分词是把文档中的文本转换成词条的过程眩¨。分词本身并不是目的，而是为后续处理作准备，是中文信息处理的基础。在英文的行文中，单词之间以空格作为分界符。而汉语以字为基本，词语之间没有明显的区分标记，歧义处理、未登录词识别和词性标注是中文分词的三大难点。目前，常用的中文分词方法有如下3种[103(1)基于字典的字符串匹配分词方法：该方法按照一定的策略将待分析的汉字字符串与词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。该类分词方法按字符串扫描方向的不同可以分为正向匹配和逆向匹配；按长度优先匹配的不同可以分为最大(最长)匹配和最小(最短)匹配。(2)基于统计的分词方法：该方法通过让计算机模拟人对句子的理解，从而实现对词的识别。该方法的基本思想：分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。(3)基于规则的分词方法：字与字同时出现的频率越高的就越有可能构成一个词，因此可以利用语料中词频统计信息来进行中分分词。该方法只需对语料中的字组频度统计信息，不需要切分词典，因而又叫做无词典分词法或统计取词方法。基于字典的分词方法简单易行，但分词速度慢且正确率低；基于统计的分词方法能识别高频未登录词，且较少出现歧义，但准确率也较低；基于规则的分词方法准确率高，但实现复杂。实际使用的分词系统都是把基于字典的机械分词作为一种初分手段，再利用其它分词方法来进一步提高切分的准确率，识别未登录词。3．Web文本的特征表示相对数据库的结构化数据来说，Web文档中的数据没有或只具有有限的结构，且也是着重于格式，而且非文档内容不同类型文档的结构也不一致。此外，文档的内容是人类所使用的自然语言，计算机很难处理自然语言的语义，所以需要对文本进行预处理，使计算机能对文本信息进行识别和处理。文本特征是指关于文本的元数据，可分为描述性特征和语义性特征[11]o前者包括文本名称、文本大小、文本类型等。后者包括文本作者、文本标题、文本内容等。文本特征表示是指抽取文本中能够代表文本特征的特征词，用量化后的特8 征词表示文本信息，从而将文本由一个无结构的原始数据转化为结构化的计算机可以识别和处理的数据。特征表示模型有多种，应用较多且效果较好的是向量空间模型(VectorSpaceModel，简称VSM)。在VSM中，每个文本文档d都被看作是特征项集合“，f：，．．7。)构成，并根据特征项t，在文档d中的重要程度赋予一定的权值Ⅵ(d)。可以进一步把每个特征项可以看作是一个所维坐标系，(Ⅵ(d)，w2(d)，．．．％(d))为每个特征项对应的坐标值，这样，文档可以映射为由一组特征项矢量构成的向量空间中的一点。例如可用一个规范化的特征矢量V(d)=瓴，w1(d)；f2，％(d)；一厶，％(d))来表示某个待挖掘的文档d。最简单的文本特征词选择方法是将文档d中出现的所有字作为特征项六，但这样会造成特征维数较高，不利于后续处理。因而，可选择d中出现的短语作为特征项t，，从而提高特征表示的准确性。此外，根据特征项在文本中的重要程度不同，因此，需要对赋予不同的权值，使越重要的特征项具有越大的权值。最简单的方法是由专家或者用户根据自己的经验与所掌握的领域知识人为地赋值。这种办法随意性很大，而且效率较低，很难适用于大规模文本的处理。另一种办法是运用文本的词频或词之间的同现频率等统计信息来计算特征项的权重。如w翮被定义为特征项如在文档d中出现的次数与文档总次数之比(称为出现频率，TermFrequency)。4．文本分类文本分类是文本挖掘的核心。文本分类是一种典型的有指导的机器学习方法，它按照预先定义的分类体系(即分类模型)，分析待定文本的特征，并与已知类别中文本所具有的共同特征进行比较，然后即将文档集合中的每个文档归纳入某个类别。常用的分类算法有：基于归纳学习的决策树(DT，DecisionTree)分类算法、基于向量空间模型的K最近邻(KNN，KNearestNeighbor)分类算法、基于概率模型的Bayes分类器分类算法、神经网络(NN，NeuralNetwork)分类算法、基于统计学习理论的支持向量机(SVM，SupportVectorMachine)分类算法等。文本分类是一种典型的有指导的机器学习方法，一般分为建立模型和使用模型分类两个阶段。建立模型的一般步骤如下‘1羽：步骤一：定义类别集合C=“，．．‘，．．岛>，其中，c。为文本类别，既可以是层次式的也可以是并列式的。步骤二：从类别集合中选择适量具有代表性的Web文档作为训练文档集合9 S=“，．．．Sy，．．4>，其中，对训练文档s，标上其所属的类别标识c，。步骤三：统计文档集合S中所有文档的特征矢量V(s，)，确定代表类别集合C中每个类别的特征矢量v(c，)。使用模型分类的一般步骤如下n引：步骤一：对于测试文档集合D={面，．．．，矾，．．4>中的每个待分类文档反，计算其特征矢量y(以)与每个V(c，)之间的相似度sim(dk，q)。步骤二：把文档巩归到与其相似度最大的一个类别。如果文档反与多个类别之间的相似度超过预定的阈值日，则可以把以归到多个类别中；而如果以与所有类别的相似度均低于阈值口，那么通常将该文档单独归为一类。在计算相似度sim(dk，C；)时，有多种方法可供选择。最简单的方法是考虑两个特征矢量中所包含的词条的重叠程度，定义如公式2．1所示：州㈧=嚣格，(2．1)其中nn(d。，G)是矿(以)和v(c，)具有的相同词条数目。nu(d,，q)是y(以)和v(c，)具有的所有词条数目；最常用的方法是考虑两个特征矢量之间的夹角余弦，定义如公式2．2所示：豇m(圳=黼(2．2)5．文本聚类文本聚类也是一种文本挖掘，与文本分类目的相同，都是把一组文档对象集合按照相似性归成若干类别，只是实现的方法不同。聚类在文档归类之前没有定义好的类可供选择，而是由聚类学习算法来自动确定。文本聚类是一种典型的无指导的机器学习过程，主要有层次凝聚法和平面划分法两种类型。对于给定的文档集合D={4，．．．，以，．．．dr}，层次凝聚法的具体过程如下¨钔：步骤一：将文档集合D中的每个文档Z看作是一个具有单个成员的簇类C。={吐>，这些聚类构成了D的一个聚类集合C={cl，．．‘，．．‘>；步骤二：计算聚类集合C中每对聚类(q，c，)之间的相似度sim(c，，c，)。步骤三：选取具有最大相似度的簇对鹕m警J砌(q，c，)，并将q和c，并为一个新的簇类&=Ciuc，，从而构成了D的一个新的聚类集合C={cl，．．．Ci，．．‘一l>；步骤四：重复上述步骤，直至聚类集合中只剩下一个聚类。该过程构造出一棵生成树，其中包含了聚类的层次信息，以及所有簇内和簇间的相似度。层次聚类方法是最为常用的聚类方法，它能够生成层次化的嵌套聚10 类，且准确度较高。但是，在每次合并时，需要全局地比较所有聚类之间的相似度，并选择出最佳的两个簇，因此运行速度较慢，不适用于大量文档的集合。平面划分法与层次凝聚法的区别在于，它将文档集合水平的分割为苦干个簇。对于给定的文档集合D={dl，．．．，dk，．．．4)，平面划分法的具体步骤如下¨卯：步骤一：给定聚类参数k。步骤二：根据一定规则选择k个文档作为聚类的种子S=“，．．J，，．．也>。步骤三：依次计算文档集合中的文档d，与种子s，的相似度sim(d,，S，)。步骤四：将4归入与其相似度最大的类，以S，为新的聚类c，，从而得到D的一个聚类C={cl，．．‘，．．．Ck}。步骤五：重复步骤步骤三、步骤四数次，从而得到较为稳定的聚类结果。该聚类算法的运行速度较快，但必须事先确定参数k，且种子选取的好坏对聚类结果有较大影响。2．2网络数据采集技术介绍2．2．1网络爬虫技术网络爬虫(WebCrawler)，又称为网络蜘蛛(WebSpider)或Web信息采集器，是搜索引擎的重要组成部分，它利用网页中的超文本链接来访问网页，并自动采集网页中的信息。爬虫的基本思想是：针对某个给定的URL集合，爬虫首先将这些URL放入一个有序的待等待队列中，然后按一定的顺序从该队列中取出URL并下载该URL所指向的页面，对页面内容进行分析，抽取出页面中新的URL并存入URL等待队列，如此重复上面的过程，直到URL队列为空或满足某个爬行终止条件，从而实现对Wreb的遍历。爬虫爬取数据过程如图2．2所示：图2．2爬取流程Fig．2．2CrawlingProcess按照系统结构和实现技术的不同，网络爬虫可分为如下四类阻们：通用网络爬虫(GeneralPurposeWebCrawler)、主题网络爬虫(TopicWebCrawler)、增量式网络爬虫(IncrementalWebCrawler)、深层网络爬虫(DeepWebCrawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。1．通用网络爬虫通用网络爬虫的采集目标是整个Web，爬行范围广，采集数量大，因而对于爬行速度和存储空间有较高要求。为提高爬行效率，通用网络爬虫会采取一定的爬行策略。常用的爬行策略有深度优先策略、广度优先策略。通用网络爬虫通常作为门户网站搜索引擎和大型的Wreb服务提供商的数据采集部分。通用网络爬虫的体系结构由页面爬行模块、页面分析模块、链接过滤模块、数据库、URL队列、初始URL等模块构成，如图2．3所示。图2．3通用网络爬虫体系结构图Fig．2．3FrameworkofGeneralPurposeWebCrawler2．主题网络爬虫12 主题网络爬虫又称聚焦网络爬虫。与通用网络爬虫相比，聚焦爬虫只需要爬行那些与预先定义好的主题相关页面的网络爬虫，因而可以极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快。与通用网络爬虫相比，主题网络爬虫的体系结构中增加了内容评价模块和链接评价模块，其体系结构图2．4所示。初始URL及关键词<二—二>9·上URL队夕U、、～，—，■千l卜页爬行模块H网页分析模块链接评判模块l卜。L内容页面URLQ上页面信一内容评判模块链接过滤模块|息库图2．4主题网络爬虫体系结构Fig．2．4FrameworkofTopicalWebCrawler对页面内容和链接进行评价是实现主题爬虫的关键，不同的评价方法计算出的重要性不同，由此导致链接的访问顺序也不同。常用的主题爬行策略有：基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略等。3．增量式网络爬虫传统的爬行器根据需要采集足量信息后停止采集，当过一段时间这些数据过时后，再对数据进行一次采集来代替先前的信息，称为周期性网络爬虫。而增量式网络爬虫对已下载的网页实行增量式更新，只爬行新产生的或者已经发生变化网页的数据，从而保证所爬行的页面是尽可能新的页面¨们。较之周期性网络爬虫，增量式爬虫只爬行新产生或被更新过页面，从而在减少页面下载量，及时更新数据的同时降低时间和空间上的开销，但会增加了爬行算法的复杂度和技术难度。增量式网络爬虫的体系结构由页面爬行模块、排序模块、更新模块、待爬行URL集、本地页面集和本地页面URL集构成。体系如图2．5所示13 本地页面集更新／保存页面御札1添力WURL网页爬行模块图2．5增量式网络爬虫结构图Fig．2．5．FrameworkofIncrementalWebCrawler4．深层网络爬虫Web页面按存在方式可分为表层网页(SurfaceWeb)和深层网页(DeepWeb)¨们。表层页面主要由超链接可以到达的静态页面构成，传统搜索引擎可以其进行索引。深层网页是指那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。例如用户注册后内容才可见的网页就属于深层网页。深层网页爬虫主要包含六个基本模块【24】：爬行控制器、页面解析器、表单分析器、表单处理器、响应分析器、LVS控制器和两个爬虫内部数据结构(URL列表、LVS表)。其中LVS(LabelValueSet)表示标签／数值集合，用来表示填充表单的数据源。其体系结构如图2．6所示：图2．6深层网页爬虫体系结构Fig．2．6FrameworkofDeepWebCrawler深层网页爬虫的爬行过程中，表单填写是一个重要步骤。现在主要有两种填写方法可以对表单进行填写：(1)基于领域知识的表单填写：该方法通常会维持一个本体库，通过语义分14 析来选取合适的关键词对表单进行填写。(2)基于网页结构分析的表单填写：此方法一般没有或只有有限的领域知识，在对表单结构进行分析的基础上，用DOM树来表示表单，最后从中提取表单各字段值。2．2．2页面信息抽取技术Web文档采用超文本标记语言HTML来描述，所以Web页面中的信息多是半结构化的数据。Web数据抽取的是指从Web页面所包含的半结构化信息中抽取用户感兴趣的数据，并将其转化为更为结构化、语义更为清晰格式的过程n43。Web信息抽取的过程如图2．7表示，通常把完成Web信息抽取工作的程序叫做Wrapper(包装器)，它是整个信息抽取过程中的核心模块，主要由信息模式识别知识和利用这些知识进行信息抽取的代码组成。规则执行模块l▲'l抽取出的web信息jweb页面文档U·』卜J鬯尚【、～。，／—N图2．7Web信息抽取过程Fig．2．7WebInformationExtractionWeb信息抽取技术有如下几种：(1)基于网页特征的信息抽取Web页面采用HTML布局标记，数据之间具有一定的层次结构和先后顺序。例如在如在新闻网页中，新闻标题一般在正文信息之前，评论通常正文之后。通过对网易、腾讯等一些大型网站的新闻网页的分析，发现页面的一些特征：(DHTML头部中，网页的新闻标题包含在与<／title>标签之间；②正文部分，标题标记<h轸中饼为表示标题大小的1—6之间的任意数字)也会出现新闻的标题；③J下文部分，新闻文字的各段落都被包含于段落标记<p标记属性>与吲p>中。利用这些网页结构特征，使用正则表达式可以提取出新闻网页的标题和内容，得到纯文本文件，然后使用传统文本挖掘中的分类聚类算法对新闻网页进行分类15 聚类。同时由于直接从网页中抽取出了文本信息，排除了网页中广告栏、导航栏等与主题不相关噪音信息。该抽取方法对已知特征的文本进行信息抽取具有非常高的准确性，且当前的主流编程语言都对正则表达式提供了强有力的支持，有利于编程实现包装器、构建Web信息抽取系统。但是不能用于对未知特征的信息抽取。(2)基于自然语言处理的信息抽取基于自然语言处理的信息抽取方法将Web文档视为纯文本进行处理[173主要适用于源文档中包含大量文本的情况，特别是句子完整、适合语法分析的Web页面。该方法在一定程度上借鉴了传统自然语言处理技术，抽取过程一般包括句法分析、语义标注、专有对象的识别(如人物，公司)和抽取规则等过程。具体说就是把文本分割成多个句子，依次对各个句子的句子成分进行标记，然后将分析好的句子语法结构和事先定制的语言模式(规则)匹配，获得句子的内容。其实质就是利用子句结构、短语和子句间关系建立基于语法和语义的抽取规则实现信息抽取。规则可以人工编制，也可从人工标注的语料库中自动学习获得。然而，该抽取方法也存在一些缺陷：①没有有效利用Web文档独特的层次特征，抽取规则表达能力有限，缺乏健壮性；②需要对大量的样本进行人工学习来获取抽取规则，效率较低；．③Web页面中存在大量超链接和HTML标记，使得文本通常不是完整的句子，从而导致抽取效率低。(3)基于本体的信息抽取本体(ontolog)是为了帮助程序和人共享知识的概念化规范，在知识表达和共享领域，本体用来描述代理之间的概念和关系(ConceptsandRelations)u引。该信息抽取方法主要利用数据本身的描述信息，较少依赖页面结构。但抽取之前需要由领域知识专家采用人工的方式制定某一应用领域的本体，该本体需要包括对象的模式信息、常值、关键字的描述等信息，并依据常值和关键字的描述信息产生抽取规则。分析可知，该抽取策略最大的优点是对页面结构的依赖较少，只要事先创建的应用领域的本体足够强大，就可以实现对该应用领域中各种网页的信息抽取。但缺点也较明显：需要人工创建领域本体，工作量大；虽然减少了对网页结构依赖却增加了对网页中所含的数据结构的要求；从大量异构的文档中抽取公共模式工作量繁重，难度较大；不支持对超链接的处理。2．2．3URL语法解析及分类算法16 论坛网页URL的格式一般形如：http：／／ServerHost／Dir／ScriptName?Paral=Valuel[Para2=Value2⋯】，可以把URL分为如下几个部分：(1)ServerHost：表示脚本所在站点域名；(2)Dir：表示脚本所在Wreb服务器目录路径；(3)ScriptName：表示URL请求的服务器端脚本脚本名称，可以看成是指定服务器端提供服务的CGI；(4)Para(I)：表示传递给脚本的第1个参数的名称；(5)Value(I)：表示传递给脚本的第1个参数的值；?之后表示用传递给服务器端脚本的参数组合。URL语法解析也称为URL语法分析n明，是指根据网页URL的构造形式，对给定的网页URL进行分析，从中识别出URL站点域名、服务器目录路径、参数名称和参数值等各部分信息。分析可知，URL具有一定的语法规则。如果把同一站点中具有相同的ScriptName、相同的参数名和相同的参数个数的两个URL看作是相似URL，那么性质相似的动态网页具有相似的URL。Web论坛动态网页中的链接按照性质可以分为若干类，如帖子链接，版面链接，显示用户信息的链接，其它功能性链接等。这些不同类型的链接在URL上表现都有自己的特征。根据上述结论得出URL分类算法的基本过程：(1)解析动态网页URL，获取URL中的脚本名称、各参数名称和对应参数值：(2)根据脚本名称，参数名的词典序对解析后的URL进行排序；(3)根据动态网页URL相似性的判断，确定不同URL类之间的分界，从而得到各个URL类。以URL分类所得的结果作为链接分类的依据，区分同一站点中不同类型的链接，从而可以将同一网站的网页链接分成若干各类。本文选取10个论坛站点的首页作为实验对象，提取出每个页面中的URL，过滤重复链接和站点外部站点链接，然后利用URL分类算法对每个站点中的URL进行分类。分类结果显示的是各个URL类的大小。如对站点http：／／bbs．bluesma．com首页的链接分类结果为(7，45，50)，表示分类得到了3个URL类，这3个类的大小分别是7、45、50。最终结果如表2．1所示17 表2．1动态URL分类结果Tab．2．1DynamicURLClassifyResult论坛首页分类结果http：／／bbs．hefei．eel(5，8，46，83，146)http：／／eaizhai．net／(34，613)http：／／bbs．bluesma．corn／(7，45，50)http：／／bbs．够65．net／(10，90，103，119)http：／／0571bbs．corn／(14，54，57，57)http：／fobs．hangzhou．com．ca(14，45，51，57)http：／／bbs．99ty．com(10，34，47，156)http：／／bbs．5617．com(6，7，17，62，139)http：／fobs．asiaec．com(6，7，43，75)http：／／bbs．86516．eom／(35，62，92，234)http：／／bbs．gamesh．com(9，21，26，42)通过分类结果进行分析，可以看出该URL分类算法能够有效区分不同类型的链接，为下一步的工作提供了不可缺少的基础。在本文后面的研究中，将利用URL分类算法实现对论坛逻辑结构的精确识别。2．3热点话题发现技术2．3．1话题检测与跟踪相关概念话题检测与跟踪(TopicDetectionandTracking)眩们是近年提出的一项信息处理技术，该技术以新闻报道、广播、电视等媒体信息流为处理对象，研究目标是对新话题进行自动识别和已知话题进行持续监控。自1996年以来，该领域进行了多次大规模评测，为信息识别、采集和组织等相关技术提供了新的测试平台。TDT是一项综合的技术，需要比较多的自然语言处理理论和技术作为支撑，因此这些测评对其进行了细化。根据不同的应用需求，TDT评测会议把话题检测和跟踪分成报道切分、话题识别、首次报道检测、话题跟踪和关联检测五个子任务。(1)报道切分：将输入的新闻报道、广播语音等连续数据源分割成各个独立的不同报道；(2)话题识别：识别出系统未知的新话题，并将相关报道也识别出来；18 (3)首次报道检测：在数据流中识别出对某个新话题的首次报道，并且只能是首次讨论某个话题的报道。与话题识别本质相同，只是结果的输出形式不同。(4)话题跟踪：针对给出的某一话题，监控新数据以发现与该话题相关的新报道。(5)关联检测：判断两则报道是否讨论相同话题。2．3．2热点话题发现相关算法在话题识别方面，目前较常用的聚类算法有：K—Means聚类算法、Single．Pass聚类算法等。(1)Single。Pass算法Single．Pass算法是一种增量式聚类算法，算法按文档输入的先后顺序进行处理，读入一个文档就确定其所属类别，而不需要对整个文档集合重新聚类。算法的基本流程如图2．8所示：是图2．8Single-Pass算法流程图Fig．2．8Single—PassAlgorithmsProcess19 对于输入的文档集合D=拓，．．彳，，．．以}和给定的初始相似度p，算法选择第一个文档反作为初始聚类中心。对于输入的文档盔，依次计算它与已存在的各个聚类中心C，的相似度sim(di，C，)，若所有相似度都小于秒，则以4为聚类中心增加一个新聚类；否则将4试赋给与其最相似最大的聚类哪IH餮s砌(吐，C，)。该算法非常直观且易于实现，但缺点也很明显，因为每个文档只能算法只做一次决策，所以早期根据很少的信息所作的错误判断到后面可能相当可观，而且运行结果依赖于文档被处理的顺序。(2)K-Means聚类算法K．Means(K-均值)算法是一种最常用的划分式聚类算法陇3，算法通过迭代将数据集合划分为k(后为事先确定的参数)个聚类。每个聚类用一个中心表示，该中心定义为聚类子集内的所有数据样本的均值。K—Means算法的基本流程如图2．9所示：图2．9艮Me锄s算法流程图Fig．2．9K-MeansAlgorithmsProcess对于给定文档对象集合胪{dl，．．．di，．．．以}和聚类数k，K-Means算法从文本中任意选择k个文档对象作为初始的聚类中心C-{c"．‘，．．&)。对文档集合D中的每个文档对象4，依次计算它与各个聚类中心c，的相似度s砌慨，c，J，并将d，赋给与其最相似的聚类argIB邳J砌(4，c，)。然后重新计算每个聚类中文档对象的平均值，更新聚类中心，若用向量空间模型来表示文档对象，文档对象的平均值表示文档所对应的向量上所有维的平均值。循环前二步，直到聚类结果不再改变，或变化小于指定阈值。研究表明，K—Means算法是一个简单高效的聚类算法，通常只需迭代数次就可达到收敛。时间复杂度为o(knt)，其中1"1是所有对象的数目，k是聚类的数目，f是迭代的次数，在处理大数据集时，具有相对高的高效率和可伸缩性。K-Means算法受聚类数k和初始聚类中心的影响较大。聚类数的选取直接决定了识别的话题数。初始聚类中心的选取直接影响到K．Means算法的聚类结果。2．4系统开发工具介绍2．4．1HtmlParse介绍HtmlParser是一个纯Java写的Html解析库，它不依赖于其它的Java库文件，主要用于改造或提取Html‘231。它能超高速解析Html，是目前最好的Html解析和分析的工具。现在HtmlParser最新版本为2．0。HtmlParser提供多个包，每个包中又含各种标记类、过滤类等，利用这些工具，用户可以方便地对文本、标记、属性等进行相关处理。主要的类和包有：(1)Parser类：数据源的入口，用来获取Html文档。(2)Lexer包：读入Html中的数据，并识别结点词位。(3)Filter包Ⅲ1：定义了AndFilter、OrFilter、NotFilter等多个过滤类，用户可以根据需要从网页中提取特定类和结点信息。(4)Nodes包：为文本、标签和注释等实现了一些特有的接口。(5)Tags包：包含有详细的标记以及标记的实现。(6)Sax包：实现SAX方式对Html的解析。(7)Http包：实现与服务器的Http连接。2．4．2正则表达式正则表达式定义了一系列字符和符号，是一种有用的文本处理工具。利用正则表达式可以实现字符串的模式匹配，验证字符串是否符合指定的模式，设置文本格式以确保数据符合一定格式。构建J下则表达式有一定的语法规范，有关的主要的语法符号如下眩卯：(1)句点符号“．"：代表任意一个字符，包括空格、Tab．字符甚至换行符。(2)方括号符号“[】"：用来匹配单个字符。(3)或符号“l’’：匹配单个字符串。(4)表示匹配次数的000符号“妒、“+"、“?”、“{n)"、“{n，m>”：用来确2l 定紧靠该符号左边的符号出现的次数；(5)否符号“A"：如果用在方括号内，“A"用来表示不想要匹配的字符。(6)空白符号“＼s"：匹配所有的空白字符，包括Tab．字符。(7)圆括号“()"：标记一个子表达式的开始和结束位置，子表达式可以获取供以后使用。目前，正则表达式已经在很多软件中得到广泛的应用，包括*nix(Linux、Unix等)，HP等操作系统，PHP，磷，Java等开发环境，以及很多的应用软件中，都提供对正则表达式的支持。Sun公司在javajdkl．4中加入了java．util让regex包，提供对正则表达式的支持。该包中的主要类有Pattern类和Matcher类。PaRem类的对象是正则表达式(模式)，Matcher类的对象是匹配器。此外，java．1ang．String类中的replaceAll和split函数也是调用的正则表达式来实现的。2．4．3ICTCLAS汉语分词系统中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)是一个基于统计方法的、集成的一体化汉语词法分析解决方案眩们，主要功能包括中文分词、词性标注、命名实体识别、新词识别、同时支持用户词典，支持繁体中文，支持gb2312、GBK、UTF8等多种编码格式。ICTCLAS分词速度单击500KB／s，分词精度98．45％，API不超过lOOkb，各种词典数据压缩后不到3M，常被选作中文分词工具。2．5本章小结本章详细阐述BBS热点话题发现与监控系统在开发过程中用到的相关理论和关键技术，主要包括Web文本挖掘技术、网络数据采集技术、热点话题发现技术等。本章在对Web文本挖掘的定义、涉及的学科以及Web文本挖掘的基本过程进行介绍的基础上，详细介绍了挖掘过程中涉及到数据采集、数据预处理、文本分类、文本聚类进行关键技术；数据采集是数据分析的基础，本章对网络爬虫的分类及不同类型爬虫的运行原理以及体系结构进行了说明；最后对本文研究的重点——热点话题发现算法进行详细叙述。在接下来的几章中本文会详细介绍这些技术和算法在本系统中的实现思想及实验结果分析。 3BBS热点话题发现与监控系统设计本章主要介绍BBS热点话题发现与监控系统的三个主要模块，并对每个模块的功能，业务流程进行详细介绍。3．1系统总体设计3．1．1系统功能介绍系统将要实现的是一个针对BBS网络环境下应用的热点话题发现与监控系统。该系统通过对BBS网络信息的自动抓取、分类存取，实现对热点话题的发现与监控等功能，为用户全面掌握网络中的热点动态提供分析依据。系统的业务流程如图3．1所示：@圊i}数据采集；。。⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．图3．1系统业务流程图Fig．3．1SystemOperationalFlowBBS热点话题发现与监控系统处理流程主要包括BBS信息采集、BBS数据预处理和数据分析三个步骤。3．1．2系统总体设计根据系统的功能和业务处理流程，考虑如下两点：(1)系统处理信息的来源：本系统中的数据来源主要是国内几个热门BBS站点及几所高校BBS，不同的BBS站点在网页格式、信息呈现方式上有所差别，所以系统分别为每种不同类型的BBS站点生成一套数据抽取算法。 (2)系统的工作周期：系统分为信息采集、信息预处理和信息分析三个阶段，其中信息采集功能上比较独立，可作为一个单独模块；信息预处理需要实现页面数据抽数、中文分词、向量表示等功能，所以该阶段分为三个子模块来实现；信息分析阶段需要实现话题识别、热点发现、事件监控等功能，所以将该阶段分为多个模块来实现。系统首先由信息采集模块利用网络爬虫下载网页，再在信息提取预处理模块中将下载的网页经过信息预处理后存入数据库，最后由信息分析各模块进行相应处理。3．2系统模块划分根据系统的功能，将系统划分为如下模块：主控模块、信息采集模块、信数据预处理、事件发现模块、事件监控，各模块层次化划分如图3．2所示：主控模块——／I信息采集数据预处理话题发现与监控／／。＼／＼l增量下载信息抽取中文分词文本向量表示热点话题发现话题监控／＼话题聚类热度评估话题分类3．2．1信息采集模块图3．2系统模块层次化划分Fig．3．2ModelArchitectureofSystem信息采集模块是整个系统的基础，热点分析模块所需要的大量数据全部来自本模块，它担负着数据采集的重任。当前系统支持的采集对象北京交通大学特思论坛(http：／／bbs．org．cn)、CSDN技术论坛(http：／／forum．esdn．net)以及几个国内热门论坛。BBS信息采集功能模块完成对BBS网页的爬取，所得数据存入可存入txt格式或Html格式文件中，供数据预处理模块进行处理。该模块可以显示网络爬虫的工作状态并进行灵活地控制，主要包括对于爬虫的开始、暂停、停止等状态的控制，以及对爬虫运行时间、已处理的URL数目、线程数目等进行显示。系统界面如图3．3所示：图3．3论坛信息采集界面Fig．3．3BBSInformationCrawlingInterface3．2．2数据预处理模块BBS数据处理模块主要实现去除爬虫所抓取网页中的干扰信息，抽取网页中对分析有益的信息，并对信息进行分词处理、特征词提取和向量表示。该模块由以下几个子模块构成：1．数据抽取模块数据抽取模块实现对于可处理网页的基于模板的信息抽取功能，从网页中提取出帖子标题、发帖作者、发表时问、帖子内容、点击数、回复数、回帖数目、回帖作者、回I阽内容等信息。2．分词模块分词模块利用ICTCLAS分词系统对抽取出的贴子信息进行分词。3．特征词提取模块根据制定的特征词提取方法，从分词所得的词集中选择特征词。4．向量表示模块利用VSM对每个话题贴子进行向量表示。3．2．3热点话题发现模块热点信息发现模块的主要功能是对信息采集模块采集到的BBS数据进行热点分析与热点监控。热点分析子模块根据数据预处理模块得到的数据，进行热点分析，根据用户设定的参数，筛选出热点信息。热点话题发现界面如图3．4所示：图3．4热点话题发现界面Fig．3．4HotTopicDetectionInterface3．2．4热点话题监控模块热点监测子模块能对用户指定的话题进行连续监控，实现热点信息的实时发现。界面如图3．5所示： 3-3本章小结图3．5话题监控界面Fig．3．5TopicMonitorInterface本章首先简要介绍了BBS热点话题发现与监控系统的功能，之后阐述了整个系统逻辑结构、物理结构以及业务流程。在介绍逻辑结构时，阐述了系统管理模块、舆情采集模块、热点信息发现模块的主要功能。27 4BBS数据采集及预处理的实现BBS数据采集是BBS数据挖掘的重要基础。通过数据预处理可将采集所得的非结构化数据转化为结构化数据，以供后续热点话题发现和监控模块使用。本章在对论坛进行分析的基础之上，实现对论坛的数据采集和数据预处理。4．1BBS数据爬取论坛存在大量无效链接，链接层次较深并且有较多冗余信息，使得基于广度优先策略的传统采集算法不能高效获取论坛信息。针对这一问题，本文提出了一种基于版块扩展的BBS数据采集算法，能有效的解决上述问题。4．1．1BBS逻辑结构分析用户发表的贴子是论坛中唯一有价值的信息，尽管论坛的显示风格各不相同，但为了便于管理和方便用户使用，论坛以一定的层次结构将信息组织起来，具有一定的逻辑结构：(1)通常根据贴子讨论内容的不同，人为将论坛分为多个讨论区，形成论坛版块。(2)在某个讨论区中，把用户发表的文章称为帖子，谈论同一话题的所有帖子组织在一起，形成一个主题。其中每个主题的第一篇文章为主贴，其余为回贴。(3)论坛版面中，用列表形式展示贴子主题。但每个版面只能显示一定数量的主题，当主题总超过一页的显示范围时，这些主题便以分页列表的方式呈现。每个分页之间通过“1"、“2’’之类的链接相互链接。这样的分页称为主题索引页面。我们给出如下的定义：(1)版块(Board)：论坛中根据不同的主题组织成的讨论区。(2)主题索引页面(TopicIndex)：论坛中具体一个版块各个主题的列表。(3)贴子(Post)：论坛中信息的最小单位，指论坛中用户发表的一段文字，可以是评论，回复，提议等任何形式。(4)主帖(MainPost)：用户发表一个话题，对应于主题列表中的每一个条目。(5)跟贴(AppendedPost)：某个话题讨论中除了主贴外的其它帖子。(6)分页链接：在以上各部分中由于一页不能完全显示，采用数字或“上一页刀、“下一页”等标识链接到其他各页的链接。论坛的逻辑结构如图4．1所示：4．1．2BBS信息采集策略图4．1BBS逻辑结构图Fig．4．1BBSlogicstructure用户发表的贴子是论坛中唯一值得关注的信息，也是唯一需要采集的数据。分析可知，贴子以主题的形式在版块中组织起来。因此，在信息采集的过程中可以利用BBS的三层逻辑结构，通过主题索引页面定位主题贴子，实现对论坛数据的精确采集。如果把论坛中的主题贴子看成采集的基本单位，那么主题索引页面就是指向它们的目录，而版块是从站点到主题索引页面之间的桥梁。所以采集策略是：从论坛首页入口，依次采集论坛各版块链接；再根据版块链接采集版块页面并从中获取该版块的所有主题索引页面；最后从主题索引页面中提取各个主题的链接并采集各帖子信息。这样的采集策略称为基于论坛版块扩展的采集算法。以上各步骤都涉及翻页问题。论坛中一般有两种翻页形式眩刀：第一，列出所有的页码链接，如“l”、“2"等；第二，标识“下一页”和“上一页”的链接构成。针对第一种情况，可利用采用启发式规则，在采集过程中，对链接中的翻页参数自动赋值；针对第二种情况，可不断采集网页中的“下一页"标志链接，直到最后一页为止。采集策略如图4．2所示：图4．2BBS采集策略图Fig．4．2BBScrawlerstrategy针对如图4．2所示的BBS结构，采集步骤说明如下：步骤一：根据BBS的URL地址读取该BBS首页，从中获取论坛版面URL。步骤二：根据版面URL，读取索引页面中指向内容页面的链接，依次读取各个内容页面。步骤三：对每一个内容页面，若存在下一页，则根据当前内容页面的URL地址得出下一页的URL地址。一般第n(n>1)页的地址字符串为第1页的地址字符串在末尾加上“&pagc--n"；然后读取下一页的内容页面，直到该帖子的最后一页。步骤四：对于当前的索引页面，若存在下一页，则根据当前索引页面的URL地址得出下一页的URL地址。同样，第n(n>1)页的地址字符串为第l页的地址字符串在末尾加上“&pagc--n”。然后读取下一页的索引页面，直到满足事先指定的帖子数或页面数。4．1．3版面链接URL的识别确定上述采集策略后，首要问题是如何识别论坛各层结构的链接。即如果识别出论坛版块链接、主题索引页面链接、帖子链接。URL具有一定的格式，同一站点中，性质相同的页面通常具有相同的参数结构，对应的URL也具有相似的格式。结合论坛逻辑结构，本文先采用深度优先算法采集少量网页，获取其中的链接，并根据参数名和参数个数对论坛链接进行分类，由用户对分类后的不同链接进行标识，从而得到相应链接对应的参数名称和参数个数，实现版块链接、主题索引链接和贴子链接的识别。30 4．1．4重复链接的处理BBS站点中，贴子按发表时间进行排序，最新发表的主题贴和回复贴排在最前面。由于论坛数据更新频率高，在数据采集过程中，很可能由于新的主题贴或回复贴的到来导致了部分主题帖或回帖的位置发生变化。例如在提取完某版块首页，正准备提取该版块第二页的时候，如果有用户对原来排在第二页的主题贴进行了回复，则该主题贴便会移动到版块首页，而首页的最后一个帖子移动到该版块第二页，从而造成采集程序对同一个帖子进行重复提取，却漏掉另一个帖子。针对上述问题，本文采用超链接消重的方法。系统建立一个超链接列表记录已采集过的页面URL。每次提取页面时，先到该列表中查询页面是否己提取过，是的话则跳过。另外，漏掉的帖子是刚刚被回复的，那么它一定在首页。所以系统在提取完成之前，对版块首页再进行一次提取，从而避免贴子漏掉。4．2BBS信息预处理BBS热点话题发现与监控系统中，信息多来自于网页，网页信息的非结构化对于定位网页中的特定信息造成不小困难，使得基于数据库数据查询统计的舆情分析难以实现。预处理模块通过对非结构化网页信息的智能抽取和结构化存储，为后续分析处理提供可利用的数据。4．2．I常见论坛帖子元素分析目前，国内常用的通用型开源论坛系统主要有如下三类：DiscuzCrossdayDiscuz!Board(简称Discuz)、DVBBS(动网)和P}玎?Wind(简称：PW)。1．Discuz论坛介绍及论坛贴子分析Discuz是北京康盛创想科技有限公司推出的一套采用P唧和MySQL等其他多种数据库构建的通用社区论坛软件系统。自2001年6月面世以来，Discuzl已拥有五年以上的应用历史和三十多万网站用户案例，目前最新的版本XI已于2010年5月19日推出。目前，应届生求职招聘论坛(http：／fobs．yingjiesheng．corn／forum．php)、考研论坛(http：／／bbs．kaoyan．corn)和中国站长论坛(http：／／www．cnwebmasters．com)都使用Discuz论坛系统。2．PHP丽nd论坛贴子元素分析PHPWind(简称：PW)是一套采用PHP+Mysql数据库方式运行并可生成3l 』匕塞童煎_人堂亟±堂位途室旦旦墨数据墨篡丛亟丝理趁塞瑰Html页面的开源通用论坛系统。目前，非凡电子书论坛(h郇：／概议№．com)、青鸟论坛(http：／／bbs．18888．tom)以及淘宝论坛(http：／／forum．taobao．com)等国内论坛采用PHPWind论坛系统。3．DVBBSDVBBS是中国开发最早的ASP论坛，早期版本基于ASP+ACCESS，现在同时提供．NET、ASP和PHP版本，但仍以ASP为主。PHP的安全性较高；．NET的效率高一点；ASP的好维护一点。ASP+ACCSEE适合中小论坛，建站成本很低：ASENET论坛承载能力较大。目前，喜剧世界官方论坛(http：／／www．xijushijie．com／bbs)、中国西部知青论坛(http：／／www．ynzb．com／bbs／index．asp)等国内热门论坛使用DVBBS论坛系统。上述所提三种论坛贴子界面大致相同，本文以DVBBS论坛贴子页面为例，说明贴子信息。界面如图4．3所示，贴子信息数据结构如表4．1所示：棠稿渤算吩1、．圭苜而邮箱i!：=}官方的oQ日篱么溺了啊?[已解决】官方的QQ交流Q满了啊。怎么办8阿?伦溜个性首贾鄯箱管理员44213557547895：5。0参与的圈7nn^每1图4．3DVBBSASP论坛贴子页面图Fig．4．3DVBBSASPforumpost如图4．3所示，论坛的贴子信息包括：主贴作者、主贴内容、主贴发表时间、回贴作者、回贴内容、回贴时问及其它相关信息。32唤月托生；挥鬻盈刁一．．．．．．．．．币：衔级章验钱学册头等文经盒宜疰 DVBBS数据库结构分析：表4．1DVBBS贴子信息数据Tab．4．1DVBBSpostinformationdata编号字段名数据类型说明lannounceidint(4)id2parentidint(4)0为主题，数字为父id3boardidintO)版面id4USemamevarchar(50)用户名5topicvarchar(250)贴子标题6bodytext(16)帖子内容7dateandtimedatetime(8)发贴时间8lengthint(4)贴子长度9rootidint(4)主题id10layersmallint(2)树型层数11order$intO)树型排序12ishesttinyint(1)是否精华13lpvarchar(40)发贴ip14expressionvarchar(20)发贴表情15locktopictinyint(1)正常／锁定，删除／审核16signflagtinyint(1)是否显示签名17emailflagtinyint(1)有回复的时候email通知18isagreevarchar(250)记录鲜花、鸡蛋19postuseddint(4)用户id20isaudittinyint(1)是否审核2lisuploadtinyint(1)是否上传22postbuyusertext(16)购买帖子用户列表4．2．2获取数据分类及数据库表的设计1．获取数据分类本系统需要采集的数据包括主题索引页面、贴子信息页面。其中贴子页面不仅需要采集贴子标题、主贴信息还要采集所有的回复贴信息，详细介绍见下。(1)主题索引页面信息33 』E立交道太堂亟±堂位论塞旦旦墨塑握丞篡丛亟处理的塞现以图4．4为例，获取的内容包括：①主题名称：这几天有去大件驾校(学校的驾驶课)学车的同学吗?②作者ID：kagin68③回帖数：4④点击数：73⑤发贴时间：2010—12—23⑥最后回贴时问：2010．5．1216：03⑦最后回复人：lijueling琴：～j”簟；|曩⋯’豸?j。j二l|。。童囊譬毫jj誊囊一“1。。^7≥蠹一『鬻辫薹萋：：纛j篓i薹二¨¨二[匀辜]登哥免了，网络上热闹了。，弘。fo。‘u。‘82123yunshanl23j。iij+。“==‘。一。。‘^‘～j麓i萋i”【I一7|]鸯到毕业时草坪蚴司题都让／l。无蠢￡磊缀西．．2}侉?；???零!?。1：J矧ane_。一j!j《iii!。[_}饔才]多功能但是毫无营莽的帖子謦⋯23456，1[Jujl．．jfiW—f二fJl。2j97。jm：?s。lO，09。。，≯；i?-涝李]四月新出炉的幽默浯句融w2‘?“譬i21witi，ancail2j{一⋯i：；i：。晴事j安静地收集着不属于我的美丽·妇☆fortune2122fortune212，i，7‘_二●豢⋯+⋯’‘一。。’；||||i[蓑酌]这几芳商老式件驾{爱(学捩的驾眵瀑)掌车同学吗?。：．．a。gin．6。8。，I；ij．u?eln=g一，i|鍪。I|i鬻巍[溪水j夸年嘲奎囊中辽几1’”再来一甄”，缀。剖-：‘磐!：{|芽2墨!掣17零；曩篝；覆i”一隧≈]弦：走能不能潲停会苏锄：参：。ts№“!篡：：．：；翼窆!?。z～．～≤i鎏i叠豪_≯j。ji，一一，，。一。；1。，ij。一?。警，I_j。，1I：ii嚣赫，茹嚣蒜嚣；嚣，赫o。，*。赫⋯。一j～，。赫端二矗。j诜⋯：嚣0～—“。施。0矗毒蠢～嚣：∞；一淼矗，蠢‰施w。勘⋯?抽址二～+‰。二嚣。⋯黛。。*⋯?⋯。⋯?I舢⋯⋯⋯、。～7．．⋯⋯～⋯。⋯?⋯一¨．i图4．4论坛主题索引页面Fig．4．4Forumtopicindex(2)贴子回复信息以图4—5为例，需要采集的内容如下：①发帖人ID：dongmenzhiwan②发帖时问：2010—12—2323：20③发帖内容：唉。。。又一个去大件的。。说是元旦以后就只周末才有车了。。。杯具啊。。这驾校都不知道怎么和学校的课联系上的。34 {【袭酌】这几天有去大件驾{刍(掌按的驾豫课)学车同学吗?二；赛襄于2010-12·2323：17只看诱作者倒序浏览+打印≯≯V一要㈡·◇国曰懑求帮助嗣}图4．5论坛贴子页面信息图Fig．4．5Forumpostinformation2．数据库表的设计由于互联网BBS系统每天都会产生庞大的数据量，数据存储的压力是一个需要慎重考虑的问题。系统采用两种方式对存储数据：(1)对原始页面等非结构化数据使用分布式文件系统存储；(2)对经过处理的结构化数据使用分布式数据库系统进行存储。本文采用Mysql数据库。下面以北京交通大学特思论坛为例说明数据库表的设计，数据库主要有三张表：主题信息表(BJTUTHEME．TAB．LE)，主贴信息表(BJTUPOST-TAB．LE)、回贴信息表(BJTUREPLY-TAB．LE)。表格的字段设计分别如表4．2、4．3和4．4所示：霪自。琴了氍丰谭。再趵。才校的耒掌件周和尤有么去一只怎个就谱一一后豫又以。不。日一。酆。元啊校。是曼驾唉说杯遗 j丝塞交亟太堂亟±堂僮途塞娶垦曼熬握丞篡厘亟缝理的塞现表4．2主题信息表的数据库设计Tab．4．2DatadesignoftopicinformationTab．1e序号字段名字段类型说明是否主钳外键lIDsmaIiint(4)贴子lD数主键2Subjectvarchar(100)标题否3Authorvarchar(15)发贴人名称否4ReplyCountint(10)回复数点击数否5ViewCountint(10)点击数否6SubjectURLvarchar(50)主题URL地址否7TopiclDsmallint(4)主题ID数主键8otherIsmallint(4)随机数否9othercint(10)发贴时间否表4．3主贴信息表的数据库设计Tab．4．3DaTab．asedesignofmainpostinformationTab．1e序号字段名字段类型说明是否主键／夕h键1IDsmallint(4)主题ID数主键2Titievarchar(400)贴子标题否3Contentvarchar(400)主贴内容否4Conten州ewvarchar(400)JavaScrip内容否5Authorvarchar(15)作者否6TopiclDsmallint(4)主题ID数外健7ColumPathvarchar(40)贴子所属版块否表4．4回贴信息表的数据库设计Tab．4．4DaTab．asedesignoftopicinformationTab．1e序号字段名字段类型说明是否主键／夕}键lIDsmallint(4)贴子ID数主键2Content_Replyv甜char(400)发贴人否3Content_Reply_Newvarchar(400)JavaScrip内容否4Authorvarchar(15)回贴作者否5Floorl’e】(tint(10)同贴层数否6TopiclDsmallint(4)主题ID数外健三张表之间通过TopiclD进行的关联：在主题信息表中TopiclD是主键，在主贴信息表和回复信息表中TopicID是外键。向主贴信息表和回复信息表中插入数据时，数据库会自动检测TopiclD值在主题信息表中是否存在，如果不存在则无法插入，这样避免重复抓取同样的主题。4．2．3基于模板的网页信息抽取BBS热点话题发现与监控系统中，信息来源于网页，网页一般采用表格来容纳数据，表格是综合的HTML结构，主要用到的HTML标签有<TAB．LE>、<TH>、①、qD>，利用这些HTML标签可以对表格的排列布局进行设定，通常不同BBS在网页布局上存在较大差异。此外，由于网页信息的非结构化特征，定位网页中的特定信息存在很大的困难，使得基于数据库数据查询统计的BBS热点话题发现与监控难以实现。本系统通过BBS信息预处理模块完成通过对非结构化网页信息的智能抽取和结构化存储，使利用数据库查询和统计进行舆情分析成为可能。1．信息抽取模块介绍基于模板的页面信息处理主要包括信息读取接口模块、解析模板匹配模块、URL模板匹配库、页面过滤模块、页面解析模块、页面解析模块库、数据库存储模块。BBS信息预处理模块的流程图如图4．6所示：图4．6页面预处理流程Fig．4．6Webpagepretreatment各个子模块的功能如下：(1)解析模板匹配子模块：根据输入的页面URL查询URL模板匹配库，判断该页面是否可以解析，若可以解析则返回解析该类页面的所需的模板标识。37 (2)URL模板匹配库：是一个包含网站URL特征的XML文件，与模板库相对应，能够根据URL判断网页所属网站以及选择匹配模板标识。(3)页面过滤子模块：该模块对无法解析的页面进行过滤，并完成一些必要的统计工作。(4)页面解析子模块：该模块是页面预处理模块的核心，通过分析不同类别网站的网页结构，建立页面解析模板库，使用HtmlParser技术完成网页信息的抽取。(5)数据存取子模块：该模块将解析所得的数据存入数据库，供后续分词、特征提取及聚类等模块使用。2．关键技术介绍该数据抽取方法涉及到的关键技术有：URL模板的设计和HtmlParser解析技术。(1)基于URL的模板匹配基于URL模板匹配的思想是：根据URL结构判断该页面是否可以解析，若可以解析则确定解析模板标识。其中，页面的解析模板标识与页面解析模板库中的相应字段对应；URL特征信息存储于XML文件格式的模板中，使用正则表达式进行模板匹配提炼。例如：特思论坛http／／bbs．bjm．o叫，经过分析，得出其帖子页面的URL特征，存入URL模板匹配库，该库文件为xml文件，其代码片段如图4．7所示：<itemname-“特思论坛“sort-”topic”><url>http：llbbs．b{tu．orgl<lurl>(regex)(http：llbbs、．bjtu＼．org，dispbbs、．asp、boardlD=、d+&a_叩ID-、d+&a叩：page一、d+)(Iregex>(module>bbstesitopic<，nodule>(idHane>TSBBS<lidHame>(preFix>&：IO：<／preFix)(suFix>&；page一<，sufix>(／item)图4．7URL匹配模板库代码片段Fig．4．7URLmatchingtemplatelibrarycodesnippet正则表达式形式的URL特征用xml标签<regex>之间的部分来表示，图4．8中显示的为：h仕p：／／bbs＼．bjmX．org／dispbbs＼．asp＼?boardlD=＼d+&lD=＼d+&；page=＼d。可以得用该URL特征可对输入页面的URL进行识别，判定该页面是否可以解析。例如对形为http：／／bbs．bjtu．org／dispbbs．asp?boardlD=61&ID=910964&page=1的页面URL，经过匹配符合上述URL特征，所以判定该页面为可以解析的帖子页面，返回给系统该页面的模板标识：bbstesi。_topic(2)HtmlParser解析以对特思论坛进行数据抽取为例，需要引入三种标签类，关键代码如下：①定义文本节点标签类38 NodeFiltertextFilter=newNodeClassFilter(TextNode．class)；②定义链接节点标签类linkFilter=newNodeClassFilter(LinkTag．class)；③定义标题节点标签类titleFilter=newNodeClassFilter(TitleTag．class)；4．2．4中文词法分析本文采用了ICTCLAS进行中文分词和命名实体识别。ICTCLAS训练语料为北京大学计算语言学研究所加工的《人民日报》语料库，词性标注集合为ICTPOS3．O。ICTPOS3．0总共包括名词(n)、动词(v)等22类标记口伽，每一类还分了子类，如名词分为：人名(Ilr)、地名(ns)、机构团体名(nt)、其它专名(nz)、名词性惯用语(nJ)、名词性语素(ng)等六个子类，分词jF确率高达97．58％(973专家组评测结果)。文档切分后结果如图4．8所示：园匿罂疆爱匿嚣溺兹臻戮霸戮缀毳毳缓魏鬻_l一—到型t件．F}缩酱仁一捧jifc一吾右，。第j?『一：图4．8中文分词结果图Fig．4．8ChineseWordSegmentationResult如图所示，经过分词处理后，文本成为一个由独立词语组成的词集，且每个词后面都有词性标注，如“公司／n”，表示该词的词性标注是名词。4．2．5停用词的过滤自然语言中，句子由名词、动词、代词、冠词、形容词和连词等词语构成。句子的语义主要由名词和动词来表达。介词、连词、副词等虽然在文档中的出现频率较高，但其没有实际意义，对文本所表达的意思贡献较小，更多的作用在于语法上，这些词称为停用词[283。文本分词后所得的词条较多，但不同词对文本表示所起的作用不同。如果将所有词条作为特征项表示文本，不但效率较低而且还会影响文本处理结果。因此需要对词集进行相应的压缩，过滤词集中的停用词以获得对文本表示有用的特征39 词。停用词过滤可以缩小特征空间的大小，降低特征词的维数，从而提高程序的效率和文本处理精度啷3。在实际应用中，通常选择句子中的名词和动词作为特征词条表示文本，而把冠词、介词和连词，一些副词和形容词作为停用词过滤掉。文本挖掘系统中一般都设置一个停用词列表。本文维护了一个653个词语的中文停用词表，用来过滤BBS文本中的停用词。其中，还将BBS中经常出现的一些无实在意义的词以及符号加入到了停用词表中，如：呵呵、引用、撑、【、】等。4．3实验结果及分析1．数据采集及预处理类的关系数据采集及预处理主要包括信息采集类、界面控制类、数据解析类等，各类关系如图4．9所示：目目LinkFilter]图4．9数据采集类图表Fig．4．9Topieindexpage各个类的功能介绍如下：(1)Crawler类：爬虫的主方法入口所在的类，实现爬取的主要流程。(2)LinkDb类：用来保存已经访问的url和待爬取的url的类，提供url出对入队操作。(3)Queue类：实现一个简单的队列，在LinkDb．java中使用了此类。(4)FileDownloader类·用来下载url所指向的网页。(5)HtmlParserTool类：用来抽取出网页中的链接和其它内容。过滤。处理。(6)LinkFilter类：一个接口，实现其acceptO方法用来对抽取的链接进行(7)MyPane类：该类主要定义了主界面的各部分控件以及对各控件的事件(8)MyFrame类：该类加载了界面的面板和定义了菜单条以及相应的事件2．实验结果及分析(1)采集目标论坛中采集目标有两类：主题索引页面和贴子正文与回复，分别如图4．10、图1．11所示：翰殷主。珏强张LCD888屠牮I在线I事件I权限I告曩I审{杰f黝缀戮潮雹曩瓣端瓣嘴∥翰捌镕赫《蟛瓣龋糍端麴翰缓秘鞲※鞭搿豫觐赫瓣甄鞘鳓囹国嘎--'星17”酸晶电渖ICDM055凑辩yuwenping31122007-2-621：36：22I卡拉囹国删营15叶皱晶要示嚣2砂*后最辱dosu轺l伯2007-2-82l：35：3Il卡拉豳国EB548兰级管zzhzzh32562007—2-820：55：57ltzgaofeng豳国朔华同方7L80B城晶，接上主帆以后圈象的色彩失真于是l412007-2-817：47：25l于是网国联怨城晶LXH-GJl5L新盔12ll1582007-2-810：35：14lyl12团国坡晶(LCD)专业术语船鼍缸kso21462007-2-810：23：42l臣中件豳国【求助】BENQFP737s绶⋯．，请教置廓里出了1,1117[任】嘉风饧l962007·2-72l：46：21l熙行天下豳露求援·鲥rrps4slhxtxfl662007·2-714：42：19lhxtxf囹∞常见品牌皱晶面授的技术参数-h区*日i：：d88853噜32007-2-71：00：23lta日嬲田LCD的飒哦扣分和艟佳方法．[023456789⋯．12】启毪电子27977382007·2·70：5l：02Itaa豳蕊囡∞c冠链td轿帆砷技术茛科baobeiqlla31492007·2-70：49：07lta日豳∞謦明基KU7T4破晶显示爵黑毋遇瘫囊请高葶格教飞嶷电踌问41572007．2-622：29：22l飞在电畴问图4．10主题索引页面Fig．4．10Topicindexpage肇≥》掌j91：塑黪穰臻塑甍爹堡黪瘴嘲萝e§铡毛最奉话的鼻49十由碴f棚囝够蝴麓主莎诒事翱-15叶奠-，幂-2净-詹量-☆像每曩·中曩垃一一分毫刺■15叶艘■，示■．开帆奠，景．2秒*后墨异．鼻曼，示矗一开(畦t并启霸主托)奠，示．2砂后又曩霹．期期，示薯屯识撑．亍iIr一冀●·71l直寰．fr开后发晨300伏蠢硅电喜●丁．缺T400V，150毒裳的电謇后敲障《盯．看茹他毫万无■量鬟坏囊t．电卸管用的置SSS7N60，电诩t上职分·2692膏三十‘t块．分别量．L5991，L4971Bx2．请坷育蘸连叠置仟矗．黾万出H矗．窿■-Z000簟10—6日，ⅢqⅢ最楚前日串曩童电缝●咦量龟噬Http=l,tWww．西h6dz．Com曼2007-2-714：41：00棵t毫电子．燕_：电麓寰，‘计量茬斗，本俺ll葛斗．时*石片，近讯接口g片，单片托蓐片⋯a彩端鼻2技彩移蕞主-图4．11贴子正文与同复41 Fig．4．11Posttextandreply(2)采集结果主题索引页面采集结果、主贴采集结果、回复贴采集结果分别如图4．12、4．13、4．14所示：功lSubj·ctAuthorh，1，comtVi竹Co皿tISubj·ctulLITonicInothlrIiothere10qIl基FZi'IG+修复过程xnju丑qi‘雌131612http：／／bbs．cknldzcom／dispbe00232"3617332006—9一lTbs．·s妒boar缸11=--81&111=323817&：23：13：巧p●S●．--．1一一11：日立T】【38D14vcoc从屏张廷俊ll眈http：／／bbs．r．1dn“lz．com／dis如∞吃33t瞄332∞6十lT：上有几十条横向不到：bs,tcp?boararD--81LT9=334035^：22：20：38——．头的黑蛾ta￡e=l12求助!松下等离子图yon(jm4嘲http：／／bbs．chin．dz．c¨／d立砷b。．0吃∞猫2∞2∞6-e-iT像上半部黑屏．嚼位：b‘．tsp?boardID：瑶1ⅡD=33203P_a21：28：34一⋯⋯修过．。：paKe=l，13液晶电视圃开机时正q￡]．16565244http：／／bbs．chinLdzcoa／di印■e002333016332006-9—17常几秒后黑屏：bs．asp?boar缸D=61缸D=3330164：．21：19：36⋯～一：：page：l141TFAIS33资科飞力浦qiqikou2I∞：http：／／bbs．chinadz．com／dis曲|00233∞怕332006-9-1715惦4电源芯片：bs·sp?bo盯缸D瑶1虹D=33∞49＆：。20：39：26：DaK*=I15^c职15寸液晶显示嚣lC硼2∞：2301http：／／bbs．ehinadzeom／di5pbe00艘45814332∞6-9-17厂家维修手册bs●"7bo廿缸D：61aID=245814a∞：21：16P●点e号l二一16：电懑IcT从l∞∞资抖yun】aping2201http：／／bbs．c_hinadz．co-／dispb卸02：瞎IoTl332∞B—口一iT：bs．●印?bo"d功=61缸肚3340Tl^；18：17：37D-￡e=l17Lc41"蔽晶昱示嚣偶尔j2emuttr13810http：／／bbs．ehinadz．e“，di砷bia0022T4T0133蹦"9-17发生黑屏闲动．关．．．．bs·邛?bo"缸D=B1缸D=2T4T0l^：，17：15：37失望高手赡口-幻l=l18液品电视黑屏、花qni6弱S335http：／／bbschinadzeom／di=如·002332262332∞6—9一lT屏、颤色失真等故：bs．·印?boF缸嘣1虹D=332282^!：9：07：29——。障⋯⋯⋯：o●￡e=l19液晶屏一拔引脚定义^3髂12∞13lJ0672：http：／／bbs．chln“lz．co,／dlspLe00灶67414332∞6十16bsatp?boardiD---6]aiD=267414&；∞：51：23口-￡t=1加!求摄rhibing0113http：／／bbs．chinadz．eom／dispb扣0233424033撕—9一16bstsp?boarxrD：：岳1alD=334240a：21：格：232Dtze=l21：三星i覆晶出现。非最佳e．yxqfaylovi213418http：／／bbschinadz．com／dis，b．0吆27铊口l332006-9—16梗式。解决办法?bs．●研?boF缸D：61矗工D=27929l^lT：41：3‘。D●￡e=l22：I,C扣昱示墨方框圈酷琦261585http：／／bbs．chintz．com／dispb由02218839332∞B一9一IBbs．-5P?boF缸D=61缸D=21883髓：14：00：12’D．￡。=l∞‘联想液晶满屏千扰迎謇蕃l●∞Bhttp：／／bbs．ch／nadz．c％，di咖‘a00霞89168332∞6-9-16；bs,sp?boarATD=6laZD=269166&：12：20：00；eu,=l图4．12主题列表信息2Topicindexinformation42 功TitieIContent。ContentJewAuthorTonic功8长虹电视的一些qsz瞄qudmZ强∞46图纸提供给大家锕勺工y‘tyl．=1^姗加P：xopx：FoNT—SEZ：opt：MIN-]正IGHI：加0pl：‘t订．·：。卧EGD卜t0助一BEE旺：break-m：TExT—日地耵：Opx：Ⅱ醒一mG盯：∞tOlt-1：I瞳n-TOY：10p=：tR^P：break-worronlOLd_。t】us．st丑·．overnowl=’auto’：。>期D耵一SIZE：<踅-elyrFc=。．．／ImgDir／e002／e002hi．htm。>(，熨舡玎>OPt：_工lom6取：心；cl哪typ,=t,xt／jiavascript×l—撕x：们衄卜googl·一*d_dient=。pub一跎嘲1∞16TT为。：明疆^K：break-goode—alternate—color=。FFFFI呵。：．11：r既T—goodead_width=488：mElqT：Opx：‘oode—ad．．hei曲t=60：—hHLⅡ匝一吼G耵：good·一_d-format=。468x60_as。；g}12121龋够献：1231iU·0屹33盯∞彩色5勺工y勺Iystyle="11AltG：r_．M-TOF：10pI：加盯一sI盟：opt：IIJ2q-]证vIGHT：200I=：stylO--。IIAL瞄III-冒0助一B趾^x：break-．1l：T芑】cT一工砷Z盯：Opx：I工N量-肛工G'cr：l^orlu-1：t衄沪TOP：10px：-R”：break-worronload-。thls．style．overnowX=’“to’：‘>H)耵一SIZE：蚀肛PTsrc=。．．／IatLDir／t002／e002hi．htm。><，sl：l田叮>卸t：_H-’皿工臼仃：aC虹PTtypo=t*xt／java=criptXI--2∞"：113RD-‘oode—ad_elient=。pub一82938弱1∞16TT篱。：B船队K：break"‘oode—alternate—color=。FF玎_，F。：a11．TExT一‘oode一·dJidth=460：‘Ⅱm!tiT：Opx：‘oode一*d．_hei曲t=60：—_～Lm一坩!IG取：‘ood0一ad_format：。4∞x明L-“。：10大量BT图纸下我焦伟●Ⅸ砭2925lI之种子舍集‘蜘roIVstyle=1^EGI卜TOP：top=：YO盯一s工zl：9pt：肛l卜肥IG盯：2∞px：style=。一^E6D卜们助一B髓脏：break--dl：TEXT一口D朋T：Opx：TT皿一]IEIGqIT：xI_ormd：WOBD-：TOP：10px：W眦：break'word。oIlload=。thes．ztyl·．overflOwX=’auto’：。>．劲D耵一SIZE：奄ClqZYr口c=。．．／Ist．Dir／e002／e0021d．hum。><，sc：譬m>卸t：MT葺-旭IGm。：毽C虹”tDt=ttxt／jav*script×!一2∞px：TOED-goode—ad_clieat=。pub一829姗1∞16TT35。；B犯^K：break"goode—alternate—color=。F”玎_F。：’all：TEXT一‘oode一-dJidth=468：珊EHT：Opx：go091·一*dhei豳t=60：——LI配一搬IG耵：[oo暑l·一ha_format="468x即L．“’：11[求助】有谁知道xi·_L‘zhijm．口0Z∞gr衢色环稳压二极管鲫勺Iystyle=。IIARGII-TOP：lOvx：加耵一s工况：opt：吡臀．地IG盯：200px：styl·=。IInGIlt-帅llD—B强“：break-Ill：TEXT一硼DE耵：Opx：U舵。mGHr：iia'rlt．1：IOBIi-ToP：10px：WR^P：break-Yord。oIllOhd-。the：st姐·．overt3．owX=’auto’：。>；舶盯一SIZE：奄C舡PTsrC=。．．／ImLDir／e002／*002hi．htm。><，sc：姗>ept．叫工H—mG玎：僦”type=text／javascript×f一200px：fOKg-‘oode—hd_dient=。pub一82938弱1∞18TT箱。：斑也^K：bretk-&oode—alternate—color=。F耶”_F。；。a11．TEXT一‘oode—ad__idth=468：加EHT：Opx：‘oo暑10一ad．．hoi暑ht=60：U狐一HEIGm：good·一·d-format=。艏8I∞一“。：图4．13主贴信息Fig．4．13PostInformation43 功Content_ReplyC％tnt-骞tplyJmrAuthorF100rTextTopiclD355151job第5楼e0啦翌3854￡：勺工ystyle=。悯-TOP：lopx：!勺nrstyle="BALRGIIr-TOP：lOpx：IqYIT-S'盥：却t：誓m：阳盯一SIZE：9pt：旺誓一地IG}ff：mⅡG盯：200px：WORD—B髓^K：bresk-an：TZXT—I船E耵：200px：∞RD-B耻^x：breve-d1：：叻x：Ⅱ肛一HzIG盯：nond：们功一豫^P：bre．k-word。：TEIT-珊E耵：Opx：珊一肛C,]ff：}onload：。也is．style．overnoTX=’cuto’：。>l·⋯-‘-。‘“————一。一⋯’——。——一‘‘⋯一-‘筠i馀杨第5楼卸0Z翻酬：勺Iystyl．=1kRGIII-TOP：10，l：{如IVIt，丑．：。■^舶：工|卜T∞：lOpz：YONT-Sr珏：9pt：grl-：F0盯一S工盈：9pt：啊r1[-肥工GHT：：HZIG搬：200px：冒0l：D—BRE^蔓[：break--U：TEXT一工蛐EliT：200px：帅瑚卜B旺斌：bre出·all：i叻x：L工肛一HEIGHT：xcLormd：们如一霄R”：breLk-word。iTElT-I舶E盯：0px：mIZ一脏G盯：{onlot扛。thil．style．overflowl=’¨to’：。>37：江洁第T楼卸嘎脚54￡；勺Ⅳstyle=。卧EG工珂-TOP：10弘：勺工vst订e：。BkRGIM-：10px：FONT-SrZZ：9pt：盱FOHT—S工ZE：gpt：陆工H_-加!I翎r：地I∞：200px．WORD—B髓AK：break-dl：T职T—I如肼：：200px：帅廿BRE堰：break-all：0px：Ⅱ胍一地IGHT：nom|1：W0肋一忱”：bro·k-word。；TEXT—IlqDE耵：0px：U口皿一mG盯：onlotd--。this．style．overflowX=’auto’：。>一⋯⋯一_⋯J⋯^¨●●t■枷^_'～～●L——。￡-L一￡～一f』h⋯J■a■●钆h■．‘．J●jL■0h■■H■■“一‘弱i1tddtrki第8楼．0022蠲5艇．勺工ystyle=。|A鱼GIN-TOF：10px：勺IVst订e=。■^B6IH．TOP：10px：FONT-SI巧：9pt：MI罾-：FONT—S工ZE：9pt：陆工N—HEl6Hr：比工国仃：200px：W0如一豫E^l【：brca_k--·U：TEXT一工蛐EMT：200px：帅助一BREJj-l[：break-e．11：0px：Ⅱ舵-肥IGHT：nomd：W0如-忱”：br,zk-_ord。{TEXT一工耵)E盯：0px：工曲E一加ⅡG}旺：o丑10·a-”thiI．styl·．overfl坩X=’¨to’：。>{一‘⋯——～——JL-：～。0___R-__一●■——J■k———^』——LdH■■JLJ■^M"LJ—√L-—“■j-‘J●■■■■■■●-‘拍：湖南蕈上第9楼．0啦23笛蚰!如Iystyle：。_ARG；IN-TOP：lop=：血Ivst，-le=。_^E6IH-T∞：10弘：姗-SI征：9pt：mI卜：F0耵一SI珏：gpt：柏【p腿IGHT：地IGh'T：200Px：WORD—B船^K：breek-m：TEXT—I蛐E盯：200px：帅肋一B腿k．X：break-all：Opx：珊E—HEIGHT：normal：们如一骶”：k●．klorr：TEXT—I帅Elit：Opx：【瑚一加强G搬：oz_lo-a．”this．style．overnowX=’auto’：。>—z^^_P-'帕一巾一一^一t^_“^-_^⋯—』【■—tJ●■■_¨■■■t‘—一一40郁德新第10楼胡02：珀854￡<DIVstylo--。gARGIIq-TOP：lOpx：勺Iystrle=。m^赋翦-T∞：10px：FONT—s工珏：9pt：肛卜FOHT—SIZE：9pt：Mrl[-HEIGHT：地IG’lr：2130px：W0如一B肛AK：bretk--en：TEXT—I如E盯：200px：WORD—BREAK：break-e．11；0px：UHE一’皿工Glfr：nodal．：冒0肋一宵lL”：break-word。TEXT—I船E耵：Opx：LI艇一地IG盯：onlo-d：”thiz．stXlo．overflowX=’auto’：。>”——⋯⋯⋯一⋯一一一⋯】一⋯～一一_”⋯—”“““i．阵楼主·伽∞2T6《41oIystyx·=1姐6IH。T0r：10弘：!勺工Vstne=。硼^B6工H-TOP：lOpx：聊_sI珏：9pt：埘I卜FONT—SIZE：9pt：MIN-}也IGHT：地IG31T：200px：W0助一B肛蜢：break--m：TEXT—I舶E耵：200px；'A'O]Lg-BI',．EAK：break-ell：iopx；LIllE—HEIGHT：nomd：们如一WR^P：break-word。T一Y下一T1m育1rrn⋯TTl咂一m国rr·。mhl^。^=”+L．itE●—1Ⅲ。rfl^_Y：’·1，+一·’’4．4本章小结图4．14贴子回复信息Fig．4．14PostReplyInformation本章主要讨论了如何从半结构化的BBS网页中获取所需信息的问题。介绍了基于HTML的Web信息抽取的相关技术；对当前大多数BBS站点的组织结构和网页模式进行了分析，然后采用HtmlParser技术和正则表达式，从HTML页面抽取预定路径的节点和字符串，并将所抽取的信息写入Mysql数据库中；讨论了BBS文本的预处理，主要是中文分词、停用词的过滤以及文本的向量表示。 5BBS热点话题发现与监控的实现BBS热点发现的功能是发现论坛中某个未知的热点话题，话题发现可以通过聚类方法来实现，每聚成一类则表示一个话题，所以BBS热点发现实际上是一个聚类过程。话题监控是对已知的某一个话题监控与它相关的所有事件，它实际上是一个分类的过程。这两个功能是BBS热点话题发现与监控系统的核心功能，也．是本文的重点。本章将详细介绍其算法实现。5．1热点话题发现BBS热点话题是指论坛中网民讨论热烈的话题。例如在进入水木BBS时，论坛会显示当前十大热门话题榜。BBS中，网民通常会先后发表贴子对某一个热点话题表达自己的观点和看法，因此进行热点发现需要从论坛的众多帖子中识别出属于同一话题的帖子，即话题识别(TopicDetection)。在对贴子进行话题识别前，还需要对贴子文本进行处理，把文本表示成向量形式。5．1．1BBS文本表示为实现话题的自动识别，需要先把贴子文本表示成计算机能够理解的语言，本文采用基于词条的向量空问模型(VSM)来表示BBS文本的内容，向量中的每一维元素被称为一个特征项。BBS站点中，一个话题所含的主帖及回贴数可能多达数百，预处理后的词条数少则上百，多则上千，但每个词条对文本主题的贡献相差很大，如果这些词条全被用来作特征项，不但话题识别效率较低，而且精度也会下降。因此，需要将其中信息量小或不重要的词条删除，留下最能表达贴子主题的词条作为特征项，从而降低特征项空间的维数。一般表示贴子主题的主要是名词短语和命名实体，本文在贴子文本预处理的基础上选择了名词、简称、缩略语以及命名实体作为初始特征集合。另外，由于BBS主题贴的标题一般直接代表帖子主题，所以对于标题中出现的词条除停用词，不论其词性如何，全部用作特征项。BBS中，每个主题帖子由许多回复贴组成，分析可知贴子出现位置不同，其重要性也不同，所以必须充分利用词条在贴子中的各项信息。综合考虑，本文主要选取了词条出现次数、出现位置、词长以及包含该词条的帖子数目等四个因子45 来对牲项的重要性进行评估。同一帖子中，一般都在谈论同一个话题，参与者发表帖子的时候自然可能会用到关于该话题的关键性词语，所以在多数帖子中同时被用到的词语很可能就是关键词。因此，帖子频数对特征项的评估有着重要的影响。此外，在标题和主帖中出现过的词语自然要比只在回帖中出现过的词语要重要。本文对于在标题出现过的词语赋予最大的权重，主帖次之，回帖最小。选择词长这个因子是因为字数多的词语包含的信息较多，是关键词语的可能性就越大。最终得到的评估函数公式如下：f(t，d)=occurence(t，d)曩postCount(t，d)·place(t，d)掌length(t)⋯(5．1)其中，occurence(t，d)是特征词f在帖子d中出现的次数；postCount(t，d)是在帖子d中包含特征t的回复贴数目；place(t，d)是特征词f在贴子d中的出现位置的权重值，当特征词t出现在标题中时，该值为3，出现在主贴中时，该值为2，若只出现在回贴中，则该值为1；length(t)是特征词，的词长的权重值，当z的词长为3时，该值为3，词长为大于3时，该值为2，否则为l。接下来，需要计算初始特征集合中的每个特征的评估函数值，并进行归一化处理。最后留下评估函数值较大的特征项。本文采取的策略是删除归一化结果小于0．001的词条。在对每个贴子进行特征选择之后，将所有的筛选结果并到一起，就得到了整个帖子集合上的特征项集合。由于评估函数值即代表了特征项在文档中的权重，所以本文用评估函数f(t，d)代替了TF．IDF公式中的TF项，来计算特征项的权重。经过归一化的计算公式如下：w(t，d)：{丝丝丝丝丝錾、／∑咖，d)+109(N／，z(f)+0．01)】2Vf∈d5．1．2相似度计算⋯(5．2)话题识别最重要的是在文本聚类方法中如何定义文本相似度的问题，即如何确定不同帖子所讨论话题的相关程度。通常，用sim(x，Y)表示文本x和文本Y之间的相似度。sim(x，y)的取值与x和y的相似程度成J下比‘3¨。相似度一般定义为介于0到1之间的一个值，即0≤sim(x，y)≤1。本文中，两个主题帖子之间的文本相似度越大，说明它们讨论的话题越相关。在文本集的向量空间模型中，常常借助向量之间的某种距离来表示文本间的相似度。本文使用Cosme距离来计算两个向量模型之间的相似度。该距离定义如下‘3加：J砌cx，y，=co义x，y，2了重要主手法⋯(5·3)其中刀为向量空间的维数，吆为向量X的第七维分量，w，。为向量Y的第后维分量，公式5．3也称为夹角余弦公式。5．1．3基于Single—Pass改进算法的话题识别传统的话题识别大多基于文本挖掘技术且挖掘对象为是新闻报道，而BBS文本与新闻报道在语言和结构上都有很大区别，因此需要根据BBS文本的特点，采取适用于BBS文本的话题识别技术。面向BBS的话题识别是指识别BBS中谈论同一话题的主题帖子。经过特征表示后，每个主题帖子都被表示成为特征向量空间中的一个文本向量。本文采用文本聚类技术，对这些文本向量进行聚类，聚为一类的文本向量所对应的主题帖子被认为属于同一个话题。1．原始Single．Pass算法的不足传统话题识别最常用的实现算法是Single．Pass增量聚类算法，该算法的基本思想是[333：设置一个聚类阈值日，算法选择第一篇文档作为种子创建第一个聚类，依次对输入的新文档与以前生成的所有类进行相似比较，如果该文档与之前的某个类的相似度值大于聚类阈值0，那么该文档将属于该分类，否则以该文档为种子创建一个新的主题类。Single．Pass算法非常直观，易于实现，但它的缺点也很明显：(1)对每个文档只能做一次决策，因此早期根据很少的信息所作的错误判断到后面可能相当可观。而且运行结果依赖于文档被处理的顺序。另外，由于该算法是增量聚类，随着主题数与文档数量的增多，内存资源会被耗尽。(2)在进行相似度比较时，算法需要将新文档与类中所有文档进行比较。例如，如果一个类包含一万份文档，则需要比较一万次才能判断出新来的文档是否属于该类，从而导致系统系统运行效率低。2．改进策略为解决Single—Pass算法存在的不足，本文在原始Single—Pass增量聚类算法的基础上加入类内多中心的相似度比较策略。47 (1)多中心表达方式策略Single．Pass算法采用单一中心来表示一个话题，但分析可知，一个中心不能从不同角度对话题进行表示；而平均中心又会稀释了每个中心表达的内容。本系统选择将关于同一话题的不同报道来对同一个话题进行表示，该多中心表达策略可以准确表达话题内容，不片面也不冗余。这里需要设定几个相似度阈值，一个重复度阈值，一个是事件中心阂值，还有新事件阈值。系统运行时，新来的文档先与事件中心比较，如果该文档与某事件的初始中心相似度大于重复度阈值(系统中为0．9)，我们认为该报道是与核心向量重复各大网站转载的同一事件同一内容的文章，属于该事件，但不做为事件中心；如果相似度在一定范围内(系统中为0．0．5)，我们认为该文章是关于这个话题的讨论不同侧面的另一个核心文章，标识为第二个中心，以此类推形成多个中心的层次化的聚类结果。如果相似度小于新事件阈值(系统中为0-3)，为该篇文章新建一个类。(2)改进后的相似度比较策略随着话题表示方式的改变，相似度比较策略也可以进行更新。针对多中心的话题表示方法，系统只要比较新文档与类内每个中心的相似度的最大值，并选择其中最大值作为当前文章该类的相似度即可。该策略与原始比较算法相比，比较次数和速度都得到较大提高。而且文章数量越多，效果越明显。5．1．4聚类结果实现及分析1．话题识别的评测机制本文依据TDT评测标准，采用漏报率、误报率以及归一化识别代价来评测话题识别的性能。漏报率是指系统没有识别出来的关于某话题的文档的数目与描述该话题的文档总数之比[343而误报率是指对某一话题来说判断错误的文档的数目与所有没有描述该话题的文档的总数之比。话题i(i=1,2900091n，乙为话题个数)的漏报率、误报率分别定义为：漏报率Missi=未识别出的与话题i相关的文档／与话题f相关的文档总数⋯(5．4)误报率甩=识别出的与话题i相关的文档数／与话题f不相关的文档总数⋯(5．5)则系统的平均漏报率、平均误报率分别定义如下所示：平均漏报率‰=∑，Miss／t．⋯(5．6)平均误报率％=∑，心／乙⋯(5．7)2．实验结果及分析本次实验针对的是文中提出的Single．Pass的改进算法，对BBS站点进行测试。试验对196篇各类BBS贴子进行训练，并过滤停用词而得到的词典，根据训练中获得的特征词的耶一IDF权值对词典进行了迸一步的筛选，最终保留了115个特征词。测试数据选取了人工收集的网络中lO个主题类别的网页作为测试数据集，10个主题类别分别是：利比亚最新局势、日本地震、社会保险法、个税起征点、刘翔夺冠、故宫失窃、全球通资费下调、汶川故事、存款准备金率和高晓松醉驾。对于每一个主题类别，本文人工从同一BBS站点的主题贴子中收集了2011年5月12日12点到2011年5月19日12点的10篇贴子的Html源代码，10个类别共计100篇。采用Single—Pass算法作为热点事件发现的聚类算法，初始参数配置如表5．1所示：表5．1初始参数设置Tab．5．1InitialParametersSetting参数名称参数数值文档窗口火小D=500主题窗口大小T=200聚类相似度阂值瓦=0．3去重相似度阈值瓦=0．9新事件相似度阈值瓦=0．5新事件文档个数Nc=0．3实验结果如图5．1所示：49 |数据采集}数据预处理|熟点话题发现||话童矗控|参数设置20ll一争一12开始时间：12：，O玑，2Gl王一5一19誓结柬时间：，。：i2：OOj．jp,ouseSttlrcallcel话题⋯⋯一⋯显示前l10vi个话题1：高晓松醉驾6：利比亚最新局势2：存款准备全军7：个税起征点3：{4-台保险法8：垒球透瓷费下调4：刘翔夺冠9：故宫失窃5：日本地震10：汶川故事本话题共有7篇显示前f⋯了“l二{个话题[经济杂谈]国家统计局上报决箦层建议将个税起征点提至5000元⋯201卜05—1211：12怎么个税起征点5000．7．重提了j201卜D5—1915：33个税起征点到底还上不上调?2011—05—1913：．32个税修正意见超22万条起征点5000元呼声最高2011—05—1816：35：[宴务案例]多位专家认为“个税起征点”标准不宜再提高(转载)2011—05—1813：14 表5．2实验结果Tab．5．2Experimentalresults初始的主题个数10初始的主题类别利日社会个税刘翔故宫全球汶川存款高晓比本保险起征夺冠失窃通资故事准备松醉亚地法点费下金率驾最震调新局势话题初始文档个数10网页净化后文档数7898989系统运行时间1分53秒聚类后的主题个数12聚类后的主题类别利日社个刘故全球汶川存款高晓其比本会税翔宫通资故事准备松醉它亚地保起夺失费下金率驾最震险征冠窃调新法点局势聚类后相应文档数7878789相关文档数67868不相关文档数0O0O0O0O相关而没被检测文10l1Ol020l档数本文采用了评价标准中的漏检率和错检率以及耗费函数对测试结果进行打分，其中令Miss=FA=1．O，最后得出新闻事件发现中漏检率11．3％，错检率为0．015％，耗费函数值为0．002。另外，经过聚类发现两个新的话题类，分析发现这两个聚类中的文档距离其应该归属的类的相似度距离较远，与人工采集时的类内准确率有直接关系。改进后的Single—Pass增量聚类算法的聚类结果有如下特点：(1)每个类基本上都由讨论同一话题的文章构成：(2)基于类内多中心的事件表示话题呈现层次聚类的效果，提高了聚类质量；51 (3)话题聚类结果准确度高：经过聚类后的子类基本属于同一父类：3．算法效率分析算法性能测试面向真实BBS网络环境，利用爬虫抓取了多组不同的测试数据集，并对每组数据进行5次测试，最后计算5次测试中结果的平均值作为算法运行所需时间，结果如图5．2所示图5．2Single-Pass算法性能图．Fig．5．2Single-PassAlgorithmsPerformance该算法在原始Single．Pass聚类算法的基础上，采用类内话题多中心表示方式，形成层次化的聚类效果。Single．Pass的算法复杂度为o(nk)，其中以为文档数，k是最终聚类数目锻昧艄引聃’。从图5．2可以看出，算法运行时间与生成的主题类别数基本呈线性关系。但系统在测试时同时运行了数据采集和预处理词模块，且两个模块的时间开销也不可忽视，所以此处的时候只是一个参考值。分析可知，经过改进的Single—Pass增量聚类算法更适合在大规模网络环境下对动态的数据进行聚类，该算法适用于BBS热点话题发现，能及时检测出新事件，并在旧类的基础上继续监控踪新的主题贴；改进后的类内多中心表示方法，有效地降低了系统漏报率，并提高了系统运行效率。5．1．5热度评估大多数论坛对热点话题的筛选只是基于简单的统计排序。通常，论坛以贴子回复的注册ID数作为衡量主题在论坛中的影响力标准，因此只要统计每个主题出在某个指定时间段内回帖的注册m数，再对主题的影响力进行排序，就可以筛选出论坛中影响力最大的主题。这种方法虽然简单易行，但却存在一定缺陷：(1)只是简单地统计了贴子的回帖用户数，没有充分利用贴子的标题、主贴及回贴等内容；(2)没有对论坛中的主题进行聚类，因而不能发现论坛中若干相关主题组成的热门话题。为了克服传统的有影响力主题计算方法的以上缺陷，本文在话题识别的基础上综合考虑话题浏览数、回复数、话题包含的主题帖子数、参与讨论的注册用户数、话题讨论周期等多方面因素来建立热点话题评价模型，对话题进行热度评分，从而筛选出论坛中的热点话题。由于每个因子的量纲不同，需要对每个因子的值进行归一化处理。设有S个话题，话题t的各因子影响值的计算公式如下：size(t)=—：兰兰⋯(5．8)、／厶f=lnj其中，nt和n。分别表示话题t和话题f包含的主题帖子数。阳瑙D，z(f)：—F』兰：一√∑二。P，2其中，P，和P，分别表示参与话题f和话题z讨论的注册ID数。仰㈣2压愿Z：',蒜replyC乖ountj√∑二医：。咖CD删JJ‘+0．1其中，replyCountj表示主题贴／的回贴数。咖一∽2矗一√∑二。区羔，6，．DwPCD嬲f，r+o．1⋯(5．9)其中，browseCountj表示主题贴／的浏览数。综合以上，最终得到的话题热度评分公式如下：hotness(t)=size(t)+person(t)+reply(t)+browsePH(t)⋯(5．12)根据上述话题热度评分的公式可以计算出聚类所得每个话题的热度，并根据用户指定的参数，选出指定时间内热度排序的前n个话题。53 5．2热点话题监控热点话题监控的目标是针对不断增长的信息流，针对某个给定的热点话题，发现所有与该话题事件的信息。对论坛进行热点话题监控就是分析论坛中新贴子的主题是否与论坛中已有热点话题相同，这实际上是一个分类的过程。5．2．1话题监控算法分析从数学角度来看，话题监控是将未标明主题的一个文本映射到已有的主题的过程，用数学公式可表示为：f．A->B，其中，A为需要进行监控的文本集合，B为已有的话题集合。由于一篇话题文本可同时与多个话题相关联，所以该映射可以是一一映射，也可以是一对多的映射。话题监控实际上是一个文本分类过程，只是与传统文本分类不同的是，话题监控具有如下几个约束条件[353：(1)需要事先给定关于某一话题的文本作为训练样本：(2)对于给定的话题，当有新的文本到来时，监控系统将立即给出一个二值(是／否)追踪判定；(3)当系统对某个话题进行训练学习时，假设系统此时对其它事件主题是未知的。话题监控的基本思想是：(1)训练样本的选择：人工给定数篇文本作为初始训练样本；(2)新文本分数计算：采用特定的主题追踪公式对系统中新到的文本进行计算；(3)主题判定：事先给定初始阈值日，若文本的计算分数大于口，则判定文本属于该主题(Yes)，否则不属于该主题(No)。其中，可以使用的主题追踪公式有多种，比较常用的是著名的Okapi公式的对称版(见式5．13)口们，所得结果表示文档间的分数。傩(dl,d2；c17)=刎Z饼tltm2(矽(国))+2五ina’i,d珊Edld2，‘国o，‘d其中d1，d2是用来表示两个不同的文档，cl是d1，d2所属于的主题。乞。是词缈在文档f中调整后的词频。彬(国)是词缈的传统Okapi倒文档频率。以。是包含词国的文档数目。rld是主题d中所包含的文档数目。‰。是主题d中包含词国的文档的数目。五是“动态权值’’的可调参数，用来对特征词的权利和聚类过程进行控制。使用该分类算法需要事先给定一个阈值口，但实际应用中很难确定阈值。最好的方法是采用预定初始值。最基本的分类算法即利用样本构造追踪器，新来数据与追踪器进行比较。5．2．21NN增量分类算法近年来，为实现按内容对网页进行自动分类，从而能够高效地组织和分析海量Web文本信息，涌现出多种自动文本分类算法，其中基于向量空间模型的K最近邻(KNN，KNearestNeighbor)自动文本分类算法，因其思想简单、效果较好得到了较广泛的应用。KNN算法的基本思想是[373：先用向量表示待分类文本，然后计算待分类文本与训练样本空间中的向量相似度，从而得到k篇与该文本距离最近(最相似)的文本，根据这k篇文本所属的类别不判定该文本所属的类别。针对论坛热点话题发现的特征，本系统采用常用的基于增量自学习的1NN分类算法，即令KNN算法中的参数k为1，相似度计算公式采用余弦相似度。算法具体思想如下：(1)训练样本选择：本系统提供热点话题发现功能，所以训练样本可由系统直接给出。(2)样本分数计算：样本间的相似度采用余弦相似度计算方法进行计算，并以每个样本与其它所有样本的相似度均值为该样本的分数。(3)新样本选择：增量自学习过程中新样本的选择很重要，本系统采用基于内容比较的分析方法来选择新样本。当新数据到来，系统计算并比较新数据与训练集中的样本1NN相似度，若样本属于某类，则进一步判断其是否可以作为该类的新样本。判断依据如下：若该文档与其最近邻居相似度非常接近，则该文档很可能只是转载或相关评论的文章，不必选作样本；若该文档与其中任何一个样本的相似度都不太接近而且比较均匀，则该文档可能是对事件另一个方面的报道，可以考虑作为新样本。(4)增量训练：基于特征提取的增量训练过程在分类过程中需要将话题出现的新特征词添加到话题中心E383并及时更新话题中心。本系统基于样本打分策略，当有新样本到来时，系统对所有样本重新打分，选择其中最能代表事件中心的样本作为下次比较的中心。增量训练的目的是解决话题漂移，话题漂移意味着事件向不同角度发展，旧的事件中心应逐渐被新的中心取代，但不排除同一时间一个事件存在着多角度的讨论与报道，故本系统在增量训练时首先将新样本加入训练样本集，然后计算所有样本的相似度矩阵。可利用相似度矩阵来判断新样本中心：55 若为单一中心事件，则相似度矩阵中必定会有一个样本与大部分样本打分接近，此时可以用该样本作为事件中心；若为多中心事件，可以找出几个同时样本与其他样本相似度接近，类似将样本划分成小类，每个小类代表事件的一个侧面报道。然后去掉相似重复的样本，留下该话题的核心文章与新来数据进行比较。与原始KNN算法相比，改进的算法中文章的比较次数得到减少，并且算法用代表一个事件多角度的文章作为样本有效地解决了话题漂移现象。综上所述，1NN增量分类算法流程可如图5．3所示：[鹫蓟陋妇匝亟匣盘圜5．2．3实验及结果分析蠢图5．3INN算法流程图Fig．5．31NNAlgorithmProcess1．算法评估标准对于文本分类算法，测试时常用的评测指标包括准确率(Precision)、召回率(Recall)、F1值等，其定义如下[393召回率=警鬻警川。％⋯㈦⋯准确率=甓裟器圳。％⋯@㈣砌撇=蔫罴 2．实验结果及分析实验选取“个税起征点"作为测试用例，该话题共有100篇文章。分别选取前3篇、6篇、9篇、12篇文档作为训练样本，剩余文章以及其他话题的文章共997篇、994篇、991篇和988篇作为测试数据时的召回率和准确率，实验结果见表5．1和图5．3所示：表5．3测试用例Tab．5．3TestCase测试用例个税改革(1)【版务处理】我发的关于个税起征点的帖子为什么不能同复?部分训练样本(2)怎么个税起征点5000又重提了?(3)我支持个税起征点3000，想骂人请顺便拎上您的脑子!训练样本个数N=3N=6N--9N=12追踪文档数量997篇994篇991篇988篇追踪时长1分50秒训练结果打分0．4766480．4668790．4610020．43338阈值设定0．4288040．420190．41490O．39004追踪结果71篇81篇86篇84篇实有文档数92篇召回率O．77O．88O．93O．91准确率1．01．O1．0F1值0．870．940．960．95 图5．4算法准确度随样本变化图Fig．5．4AlgorithmAccuracyChangeWithSamples如图所示，当系统中训练样本个数少于12时，F1值呈平缓上升趋势，但当训练样本个数增加到12时，F1值却开始下降，由此可知算法的好坏与训练样本数目的多少没有关系，只与训练样本的质量有关。以测试用例l为例，当训练样本为9时，样本集恰好精确涵盖了该话题的所有内容，而当样本个数为12时，可能存在重复样本或样本偏离其它样本较远等情况，从而导致F1值有所下降。所以在进行热点话题监控时，要十分重视训练样本的选择。另外，本文还分别选取其他9个话题作为训练样本进行监控，实验结果相差不大，平均准确率都在95％以上，平均召回率都在84％以上。5-3本章小结本章重点介绍了本系统的核心技术：BBS热点话题发现与话题监控技术。热点发现模块采用改进的Single．Pass增量聚类算法，该算法结合了增量聚类算法发现速度快和层次聚类算法分析质量高的优点，既能满足系统实时性要求，又能确保话题的聚类质量；话题监控模块采用INN增量分类算法，有效地解决了话题漂移现象。 6结论与展望6．1结论本论文从论坛热点话题发现的角度入手。在分析这一领域的发展现状和研究意义的基础上，阐述了实现BBS热点话题发现与监控系统各个关键技术：论坛数据爬取、数据预处理、热点话题发现和热点话题监控。本文在研究各关键技术的常用算法的基础上，结合论坛的特性，对相应算法作出改进以满足系统的实际性能要求。1．论坛数据爬取：利用论坛的三层逻辑结构，对论坛按版面扩展策略进行采集，有效提高采集效率和数据质量；2．数据预处理：数据预处理过程最重要的是特征词的选择和权重的计算。本文在分析论坛贴子特征的基础上，本文选择以下四个因子来建立评估函数：词条在贴子中的位置、词条的出现次数、词条长度以及包含该词条的帖子数目等，并用特征词的评估函数值代替了TF．IDF公式中的TF项，来计算特征项在向量空间模型中的权重；3．热点话题发现：本文采用Single—Pass的改进算法，有效地提高了聚类结果的准确率和召回率，改善了系统热点事件发现模块的性能；4．热点话题监控：本文采用增量自学习的1NN算法，有效地对系统热点话题进行监控。本课题详细设计并实现了一个针对BBS的热点话题发现与监控系统。完成了对BBS信息的采集，并对预处理后的数据进行分析，从中发现热点话题，最后还可实现对指定热点话题的监控。该系统可以为客户全面掌握网络中的热点资讯，判断舆论导向提供依据。6．2展望系统还不够完善，目前，该系统还只能针对个BBS进行数据的爬取和分析，下一步需要做的改进和研究方向有：1．进行更深入的舆情分析相关理论研究舆情研究在我国方兴未艾，虽然近年来，关于舆情基础理论的研究取得了很大进展，但关于舆情的一些问题国内还没有权威性的定义，舆情研究领域还存在较多的空白。本文的研究课题属于舆情研究领域，但没有对舆情展开详细的讨论，下一步应该更好结合舆情研究的理论方法进行分析。2．改进BBS数据预处理算法，使系统具有更广的使用范围目前系统的热点话题发现和监控只能针对几个BBS，局限性很大。未来应该对BBS页面信息抽取进行改进，设定不同的热点分析理论和模式，使系统能实现对新闻网站、微博等其他各种类型的网络环境的热点分析。3．融合其他领域相关技术，扩展系统功能。虽然本文系统关键技术的实现算法进行改进，但系统功能和性能方面都还有较大改进空间，未来应该不局限于数据挖掘领域，借鉴其它领域的技术来完善系统功能，优化系统性能。参考文献[1]中国互联网络信信息中心(CNNIC)．第27次中国互联网络发展状况调查统计报告http：／／www．cnnie．cn／research／bgxz／tjbg／201101／t20110120—20302．Html[2]TDThomepage．http：／／www．itl．nist．gov／iad／894．01／tests／tdt／indx．htm．[3]Matsumura,N．，Ohsawa,Y，Ishizuka,M．InfluenceDiffusionModelinText-BasedCommunication．JournaloftheJapaneseSocityforAtificialIntelligence，2002，30)：259-267．E43Zukerman，I．，Marcom，YFilteringspeaker-specificwordsfromelectronicdiscussions．In：Proceedingsofthe20血InternationalConferenceOllComputationalLinguistics，2004．[5]LideWu，LanYou,XuanjingHuangeta1．ExploringVariousFeaturestoOpimizeHotTopicRe仃evMonWEB．In：Proceedingsofmel吐InternationalSymposiumonNeuralNetworks(ISNN’04)，Dalian,LNCS3173，2004：1025-1031．[6]邱立坤，程威，龙志伟等．面向BBS的话题挖掘初探．全国第八届计算语言学联合学术会议【C】，南京，2005：401-407．E7]邹腊梅，肖基毅，龚向坚．Web文本挖掘技术研究川～情报杂志，2007，(2)：53-55．[8]胡静，Web文本挖掘中数据预处理技术研究【J】．现代计算机(专业版)，2009(02)，48-50．[9]邹涛．基于WWW的文本信息挖掘【J】．情报学报，1999，19(4)：291-295．[10]龚汉明，周长胜．汉语分词技术综述．北京机械工业学院学报【J】．．2004，19(03)：52-61．[11]王继成，潘金贵，张福炎．Web文本挖掘技术研究【J】．计算机研究与发展．2000，37(5)：513—520．[12]肖立英．基于INTERNET的用户个性化兴趣模型的研究【D】．中南大学硕士学位论文，2003．[13]王娜．Web文本挖掘技术研究【D】．兰州理工大学硕士学位论文，2005．[14]胡红霞．Web敏感页面发现技术研究[D】．中国人民解放军信息工程大学硕士学位论文，2002年[15]J．Cho，H．Garcia-Molina,L．Page．EfficientcrawlingthroughURLordering．InProceedingsofthe7thInternationalWorldWideWebConference，1998：161-172．[161孙立伟，何国辉，吴礼发．网络爬虫技术的研究【J】．电脑知识与技术．2010，6(15)：4112-4115．[17-1王旭东．基于Web的信息抽取技术研究[D】．西南交通大学硕士学位论文，2007．[18]刘秋水．Web信息抽取与网页摘要的研究与应用【D】．大连理工大学硕士学位论文，2008．[19-1李魁．大规模Web论坛采集技术研究【D】．中国科学院计算技术研究所硕士学位论文．2006．[20]孙黎明．基于BBS的社会热点话题识别与跟踪算法研究【D】．华南理工大学硕士学位论文．2009．[21]李淑英．中文分词技术【J】．科技信息，2007(36)：65-66．[22-1刘尚喜．武警部队舆情监测系统设计和实现[D】．国防科学技术大学硕士学位论文．2009．[23]蔡木生．互联网上人才招聘信息的搜集与挖掘【D】．华南理工大学硕十学位论文．2004．[24]王琳琳．基于HTMLParse的w．eb信息提取技术【D】．北京邮电大学硕士学位论文，2007．61 [25]王胜．基于XPath的网页信息抽取[D】，200年中国科学技术大学硕士学位论文，2006．[26]陈立娜，基于本体的旅游领域Web信息抽取【D】．广西师范大学硕七学位论文．2009．[272李恒训，张华平，刘金刚．ww论坛采集关键技术研究【J】．微计算机信息．2010，26(8-3)：106-108．[28]林丽．基于语义距离的文本聚类算法研究[D】．厦门大学硕士学位论文．2007．[292刘强．基于向量空间模型的文本聚类算法研究【D】．江西财经大学硕士学位论文．2008．[30]龚汉明，周长胜．汉语分词技术综述．北京机械工业学院学报【J】．2004，19(03)：52-61．[31]LaenderA，Ribeiro-NetoB，SilvaA，eta1．BriefSurveyofWebDataExtractionTools．In：SIGMODRecord,2002，31(2)．[32]李保利，俞士汉．话题识别与监控研究阴．计算机工程与应用，20007)．[33]周明建，高济，李飞．基于本体论的Web信息抽取【J】．计算机辅助设计与图形学学报，2004，16(4)：535-541[34]骆卫华，刘群，程学旗．话题检测与监控技术的发展与研究【c】～全国第七届计算语言学联合学术会议，哈尔滨，2003：560．566．[35]洪宇，张宇，刘挺等．话题检测与监控的评测及研究综述【J】．中文信息学报，2007，21(6)：71-87．[36]蒋凡，高俊波，张敏．BBS中主题发现原型系统的设计与实现【J】．计算机工程与应用．2005(31)：56-59．[37]潘丽芳，杨炳儒．基于簇的K最近邻(KNN)分类算法研究阴．计算机工程与设计，2009，30(18)：4260-4261[38]齐海风．网络舆情热点发现与事件监控技术研究【D】．哈尔滨工业大学硕士学位论文．2008．[39]周旭．BBS热点分析系统研究[D】．北京交通大学硕士学位论文．2007．[40]胡静，w曲文本挖掘中数据预处理技术研究【J】．现代计算机(专业版)，2009(02)，48-50．</p> </div> <div class="mt-3 bg-white"> <div class="d-lg-block d-none px-3 px-lg-4 py-3 border-bottom text-center font-18"> 当前文档最多预览五页，下载文档查看全文 </div> <div class="detail-fixed-feature d-none d-lg-block" id="detailFixedFeatureBox"> <div class="px-3 px-lg-4 py-3 d-flex align-items-center justify-content-between fixed-feature-box" id="detailFixedFeature"> <div class="d-lg-flex d-none align-items-center"> <div> <a class="btn btn-outline-danger article-state" href="javascript:;" data-id="20644125" data-code="438274" data-title="bbs热点话题发现和监控系统"> <span>侵权申诉</span> </a> <button type="button" class="btn btn-outline-secondary with-light ml-2" data-toggle="modal" data-target="#reportModal" data-id="20644125"><span>举报</span></button> </div> <nav class="d-flex align-items-center ml-4" id="anchorPoint"> <a href="javascript:;" class="btn btn-light anchor-pre px-2"><i class="iconfont text-muted"></i></a> <div class="text-muted mb-0 pre-point-list" id="prePointList"> <a class="px-2 active nav-link" href="#anchorImg0">1</a> <a class="px-2 nav-link" href="#anchorImg1">1</a> <a class="px-2 nav-link" href="#anchorImg2">2</a> <a class="px-2 nav-link" href="#anchorImg3">3</a> <a class="px-2 nav-link" href="#anchorImg4">4</a> <a class="px-2 nav-link" href="#anchorImg5">5</a> / <span class="px-2" id="prePageNums">65</span> </div> <a href="javascript:;" class="btn btn-light anchor-next px-2"><i class="iconfont text-muted"></i></a> </nav> </div> <div class="d-flex align-items-center"> <p class="d-lg-block d-none font-14 text-black-50 mb-0 mr-2">此文档下载收益归作者所有</p> <button class="btn btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" style="width:128px;height:40px;" data-id="20644125" data-price="2000" data-size="6.65 MB" data-page="65页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="bbs热点话题发现和监控系统">下载文档</button> </div> </div> </div> </div> <div class="d-block d-lg-none px-3 px-lg-4 py-3 border-bottom text-center font-14" style="color:#999">当前文档最多预览五页，下载文档查看全文</div> <button class="btn d-block w-100 d-lg-none btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" data-id="20644125" data-price="2000" data-size="6.65 MB" data-page="65页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="bbs热点话题发现和监控系统">点击下载本文档 </button> </div> <div class="px-3 px-lg-4 py-3 bg-white mt-3"> <ul class="nav custom-tab border-bottom" id="myTab" role="tablist"> <li class="nav-item" role="presentation"> <a class="nav-link active px-0 mr-4 font-16 font-weight-light pb-3" id="tips-tab" data-toggle="tab" href="#showTips" role="tab" aria-controls="showTips" aria-selected="true">版权提示</a> </li> <li class="nav-item" role="presentation"> <a class="nav-link px-0 pb-3 font-16 font-weight-light text-black-50" href="/d-20644125.html" >下载文档</a> </li> <dl class="flex-grow-1 mb-0 d-lg-none"> <li class="ml-3 float-right"> <button type="button" class="btn btn-light" data-toggle="modal" data-target="#reportModal" data-id="20644125"><span>举报</span></button> </li> </dl> </ul> <div class="tab-content with-content pt-3" id="myTabContent"> <div class="tab-pane fade show active font-14" id="showTips" role="tabpanel" aria-labelledby="showTips-tab"> 温馨提示： <br> 1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。<br> 2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。<br> 3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。<br> 4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。 <br> </div> </div> </div> <div class="mt-3 bg-white"> <div class="px-3 px-lg-4"> <div class=" py-2 border-bottom d-flex align-items-center justify-content-between"> <h5 class="font-16 my-2">最近更新</h5> <a class="font-14 hover-letter-spacing" href="/sitemaps/index.html" target="_blank" rel="nofollow">更多<i class="iconfont font-12 pl-1"></i></a> </div> </div> <ul class="mx-75 px-0 py-3 mb-0 row img-item-list"> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77580020.html" title="招生全国统一考试语文字形题汇编试题" target="_blank">招生全国统一考试语文字形题汇编试题</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-71188547.html" title="2007年国家司法考试试卷四" target="_blank">2007年国家司法考试试卷四</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76092473.html" title="徐州专版20考生物复习方案专题提升04生物技术专题试题" target="_blank">徐州专版20考生物复习方案专题提升04生物技术专题试题</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-75889990.html" title="北京专版20考历史复习方案第01篇第三部分世界史课时训练19封建时代的欧洲封建时代的亚洲国家试题" target="_blank">北京专版20考历史复习方案第01篇第三部分世界史课时训练19封建时代的欧洲封建时代的亚洲国家试题</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-68493469.html" title="谈谈如何通过司法考试文" target="_blank">谈谈如何通过司法考试文</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76094743.html" title="2017四川司法考试成绩及法律职业资格申请" target="_blank">2017四川司法考试成绩及法律职业资格申请</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-78671725.html" title="司法考试高频考点李仁玉" target="_blank">司法考试高频考点李仁玉</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-77492715.html" title="2020年资产评价师资格全国统一考试大纲" target="_blank">2020年资产评价师资格全国统一考试大纲</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76118122.html" title="2019年司法考试第二编法理学新章节考点1" target="_blank">2019年司法考试第二编法理学新章节考点1</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-76617237.html" title="2021年度注册会计师全国统一考试大纲" target="_blank">2021年度注册会计师全国统一考试大纲</a> </li> </ul> </div> <div class="detail-yourlike px-3 px-lg-4"> <div class="border-bottom d-flex align-items-center justify-content-between py-2"> <h5 class="font-16">大家都在看</h5> <a class="font-14 hover-letter-spacing" href="/today.html" target="_blank" rel="nofollow">近期热门<i class="iconfont font-12 pl-1"></i></a> </div> <ul class="row font-14" id="mayBeFllowArticle"> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76091991.html" title="徐州专版20考地理复习方案专题训练04人文地理经济人口文化试题" target="_blank">徐州专版20考地理复习方案专题训练04人文地理经济人口文化试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-71188555.html" title="2009年国家司法考试试卷一" target="_blank">2009年国家司法考试试卷一</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-78008233.html" title="2002年全国普通高等学校招生全国统一考试物理（广东、广西、河南用）doc--高中物理 " target="_blank">2002年全国普通高等学校招生全国统一考试物理（广东、广西、河南用）doc--高中物理 </a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77579957.html" title="招生全国统一考试语文试题江苏卷含扫描答案试题" target="_blank">招生全国统一考试语文试题江苏卷含扫描答案试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76708645.html" title="201年普通高等学校招生全国统一考试试题（家长卷）" target="_blank">201年普通高等学校招生全国统一考试试题（家长卷）</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-67265951.html" title="云南省2017年上半年司法考试《卷三》考试题" target="_blank">云南省2017年上半年司法考试《卷三》考试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-67279604.html" title="【司法考试】劳动争议处理几个疑难问题与研究" target="_blank">【司法考试】劳动争议处理几个疑难问题与研究</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-66405181.html" title="《司法考试入门指南》课程教学讲义" target="_blank">《司法考试入门指南》课程教学讲义</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-pdf" href="/p-70210408.html" title="司法考试《刑事诉讼法》考点大纲汇总" target="_blank">司法考试《刑事诉讼法》考点大纲汇总</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-66626823.html" title="[精品]司法考试刑法易混淆知识指导：责任年龄和责任能力" target="_blank">[精品]司法考试刑法易混淆知识指导：责任年龄和责任能力</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76091921.html" title="徐州专版20考地理复习方案第二部分世界地理上课时训练05天气和气候气温和降水试题" target="_blank">徐州专版20考地理复习方案第二部分世界地理上课时训练05天气和气候气温和降水试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-80503859.html" title="同等学力经济学学科全国统一考试大纲及指南第四版《财政学》关键名词及思考题答案" target="_blank">同等学力经济学学科全国统一考试大纲及指南第四版《财政学》关键名词及思考题答案</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76092887.html" title="徐州专版20考语文复习方案第01轮直接默写+理解默写试题" target="_blank">徐州专版20考语文复习方案第01轮直接默写+理解默写试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77579713.html" title="招生全国统一考试语文(四川卷)精析版试题" target="_blank">招生全国统一考试语文(四川卷)精析版试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76256578.html" title="司法考试案例《以案释法》：建设工程竣工结算的法律性质" target="_blank">司法考试案例《以案释法》：建设工程竣工结算的法律性质</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77579821.html" title="招生全国统一考试语文试题(广东卷)精校版试题" target="_blank">招生全国统一考试语文试题(广东卷)精校版试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-75566109.html" title="报关员资格全国统一考试大纲(doc 26页)" target="_blank">报关员资格全国统一考试大纲(doc 26页)</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-68958516.html" title="2018成人高等学校招生全国统一考试" target="_blank">2018成人高等学校招生全国统一考试</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77579702.html" title="招生全国统一考试语文(全国1卷陕西)精析版试题" target="_blank">招生全国统一考试语文(全国1卷陕西)精析版试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-pdf" href="/p-70210415.html" title="司法考试《法学》精选金题精讲附答案（方法论+理论法）" target="_blank">司法考试《法学》精选金题精讲附答案（方法论+理论法）</a> </li> </ul> </div> </div> <div class="detail-sidebar d-none d-lg-block"> <div id="columnDetailSiderRight"> <div class="detail-yourlike mt-0 pb-2" id="relativeArticle"> <div class="border-bottom py-2 d-flex align-items-center justify-content-between"> <h5 class="font-16">相关文章</h5> <a class="font-14 hover-letter-spacing" href="/ucenter/search/index.html?text=bbs热点话题发现和监控系统" target="_blank" rel="nofollow">更多<i class="iconfont font-12 pl-1"></i></a> </div> <ul class="font-14 like-list"> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-12839838.html" title="阅读材料：bbs热点话题精选" target="_blank">阅读材料：<span class="text-danger">b</span><span class="text-danger">b</span><span class="text-danger">s</span><span class="text-danger">热</span><span class="text-danger">点</span><span class="text-danger">话</span><span class="text-danger">题</span>精选</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-12941606.html" title="阅读材料：bbs热点话题精选" target="_blank">阅读材料：<span class="text-danger">b</span><span class="text-danger">b</span><span class="text-danger">s</span><span class="text-danger">热</span><span class="text-danger">点</span><span class="text-danger">话</span><span class="text-danger">题</span>精选</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-13843586.html" title="社交网站热点话题发现" target="_blank">社交网站<span class="text-danger">热</span><span class="text-danger">点</span><span class="text-danger">话</span><span class="text-danger">题</span><span class="text-danger">发</span><span class="text-danger">现</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-33430580.html" title="基于微博的热点话题发现" target="_blank">基于微博的<span class="text-danger">热</span><span class="text-danger">点</span><span class="text-danger">话</span><span class="text-danger">题</span><span class="text-danger">发</span><span class="text-danger">现</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34591237.html" title="微博热点话题发现系统的设计与实现" target="_blank">微博<span class="text-danger">热</span><span class="text-danger">点</span><span class="text-danger">话</span><span class="text-danger">题</span><span class="text-danger">发</span><span class="text-danger">现</span><span class="text-danger">系</span><span class="text-danger">统</span>的设计与实<span class="text-danger">现</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34598467.html" title="微博热点话题发现方法研究" target="_blank">微博<span class="text-danger">热</span><span class="text-danger">点</span><span class="text-danger">话</span><span class="text-danger">题</span><span class="text-danger">发</span><span class="text-danger">现</span>方法研究</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34657868.html" title="bbs中主题发现原型系统的设计与实现" target="_blank"><span class="text-danger">b</span><span class="text-danger">b</span><span class="text-danger">s</span>中主<span class="text-danger">题</span><span class="text-danger">发</span><span class="text-danger">现</span>原型<span class="text-danger">系</span><span class="text-danger">统</span>的设计与实<span class="text-danger">现</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34802082.html" title="面向舆情监控的微博热点话题发现及演化分析研究" target="_blank">面向舆情<span class="text-danger">监</span><span class="text-danger">控</span>的微博<span class="text-danger">热</span><span class="text-danger">点</span><span class="text-danger">话</span><span class="text-danger">题</span><span class="text-danger">发</span><span class="text-danger">现</span>及演化分析研究</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-36748876.html" title="微博客热点话题发现与跟踪技术及系统" target="_blank">微博客<span class="text-danger">热</span><span class="text-danger">点</span><span class="text-danger">话</span><span class="text-danger">题</span><span class="text-danger">发</span><span class="text-danger">现</span>与跟踪技术及<span class="text-danger">系</span><span class="text-danger">统</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-41081210.html" title="BBS论文BBS热点话题发现与监控系统" target="_blank">BBS论文BBS<span class="text-danger">热</span><span class="text-danger">点</span><span class="text-danger">话</span><span class="text-danger">题</span><span class="text-danger">发</span><span class="text-danger">现</span>与<span class="text-danger">监</span><span class="text-danger">控</span><span class="text-danger">系</span><span class="text-danger">统</span></a> </li> </ul> </div> <div class="detail-yourlike pb-2"> <div class="border-bottom py-2"> <h5 class="font-16">相关标签</h5> </div> <ul class="font-14 like-list d-flex flex-wrap"> <a class="search-tag" href="/tags/670401/" target="_blank">热点话题</a> <a class="search-tag" href="/tags/1490426/" target="_blank">监控</a> <a class="search-tag" href="/tags/540341/" target="_blank">系统</a> <a class="search-tag" href="/tags/1175333/" target="_blank">发现</a> </ul> </div> <a class="detail-sidebar-gg d-block rounded" href="https://www.ttzyw.com/" target="_blank"><img src="https://www.wenku365.com/d/file/2021/09-08/8ae594f962021288bbd21ce8e5e2f6e6.jpg"></a> </div> </div> </div>  <div class="d-lg-none m-footer"> <div class="container d-flex justify-content-between align-items-center bg-white border-top flex-nowrap pr-3"> <div class="flex-1 pr-3 text-secondary d-flex align-items-center" style="line-height: 1"> <a class="text-center px-3 d-block mr-2" href="/"> <i class="iconfont d-block font-24 text-muted"></i> <p class="font-12 text-muted mb-0 mt-1">首页</p> </a> <div class="text-center px-3 mr-2" id="shareModal"> <i class="iconfont d-block font-24 text-muted"></i> <p class="font-12 text-muted mb-0 mt-1">分享</p> </div> <div class="text-center px-3 copyWebsite"> <i class="iconfont d-block font-24 text-muted"></i> <p class="font-12 text-muted mb-0 mt-1">客服</p> </div> </div> <button class="btn btn-danger px-4 py-2 flex-shrink-0" data-btn="downloadfile" data-mobile="true" data-id="20644125" data-price="2000" data-size="6.65 MB" data-page="65页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="bbs热点话题发现和监控系统">下载本文档</button> </div> </div>  <div aria-live="polite" aria-atomic="true" class="toast-area"></div>   <div class="modal m-fullscreen-modal" id="viewModal" tabindex="-1" role="dialog" aria-labelledby="viewModalLabel" aria-hidden="true"> <div class="modal-dialog modal-dialog-scrollable modal-dialog-centered"> <div class="modal-content pt-0"> <div class="modal-header"> <h5 class="modal-title text-ellipsis">暂无标题</h5> <button type="button" class="close" data-dismiss="modal" aria-label="Close"> <span aria-hidden="true">×</span> </button> </div> <div class="modal-body empty-box-2" data-target="#dataLoading"> <div id="viewImgBox"></div> <button class="btn" id="dataLoading" data-close="#viewModal"> </button> </div> </div> </div> <div class="view-modal-features"> <div> <a class="btn btn-light article-viewall" target="_blank"><i class="iconfont"></i></a> </div> <div> <a class="btn btn-light article-collection" tabindex="-1" role="button" aria-disabled="false" data-close="#viewModal"><i class="iconfont"></i></a> </div> <div> <a class="btn btn-light article-download" data-body="true" data-btn="downloadfile" data-dismiss="modal"><i class="iconfont"></i></a> </div> </div> </div>  <div class="modal fade m-fullscreen-modal" id="reportModal" tabindex="-1" role="dialog" aria-labelledby="reportModalLabel" aria-hidden="true"> <div class="modal-dialog modal-dialog-scrollable modal-dialog-centered"> <div class="modal-content pt-0"> <div class="modal-header"> <h5 class="mb-0">举报</h5> <button type="button" id="closeReportModal" class="close" data-dismiss="modal" aria-hidden="true">×</button> </div> <div class="modal-body"> <div class="modal-custom-box px-0 px-lg-4"> <form id="reportForm" data-logintype="normal"> <div class="d-flex mb-4 align-items-center"> <p class="require flex-shrink-0">举报原因</p> <label class="flex-grow-1"> <select class="custom-select" id="reportReason" name="title" class="rounded"> <option selected hidden disabled value="" class="text-secondary">请选择举报原因</option> <option value="涉及党政历史">涉及党政历史</option> <option value="歪曲党史、新中国史、改革开放史、社会主义发展史">歪曲党史、新中国史、改革开放史、社会主义发展史</option> <option value="文档内容质量低下无意义">文档内容质量低下无意义</option> <option value="内容中含有违法信息如（涉恐，色情，低俗等）">内容中含有违法信息如（涉恐，色情，低俗等）</option> </select> <div></div> </label> </div> <input type="hidden" name="id" value="20644125"/> <div class="d-flex mb-4 align-items-center"> <p class="require">联系方式</p> <label class="flex-grow-1"> <input type="text" placeholder="请输入您的手机号" id="reportContract" name="tel" class="rounded"> <div></div> </label> </div> <div class="d-flex align-items-center mb-4"> <p class="require">详细说明</p> <label class="flex-grow-1"> <textarea type="text" placeholder="请输入举报原因" id="reportDetail" name="content" class="rounded"></textarea> <div></div> </label> </div> <div class="mt-4 d-flex align-items-center justify-content-between" style="padding-left: 83px"> <button class="btn btn-primary submit mt-0 px-5 flex-shrink-0" style="width: auto" type="button">提交</button> <p class="mb-0 ml-3">内容无法转码请<button type="button" class="btn btn-sm btn-outline-primary ml-2" id="reEncode">点击此处</button></p> </div> </form> </div> </div> </div> </div> </div>  <div class="modal fade m-fullscreen-modal" id="rechargeEnoughModal" tabindex="-1" role="dialog" aria-labelledby="rechargeEnoughModaLabel" data-backdrop="static" data-keyboard="false" aria-hidden="true"> <div class="modal-dialog modal-dialog-scrollable modal-dialog-centered"> <div class="modal-content pt-0"> <div class="modal-header"> <h5 class="mb-0">文档下载</h5> <button type="button" id="closeRechargeEnoughModal" class="close" data-dismiss="modal" aria-label="Close"> × </button> </div> <div class="modal-body"> <div class="px-3 py-2 bg-light"> <a href="" class="font-14 text-ellipsis-2 mb-0 text-dark">bbs热点话题发现和监控系统</a> </div> <div class="text-dark font-14 text-center mt-3"> 我的金币余额：<b class="text-danger user-balance">0.00</b></div> <div class="text-dark text-center mt-2 font-16">下载文档需要支付金币<b class="text-danger user-pay-money">20</b></div> <div class="mt-5 text-center"> <button class="btn btn-primary px-5 lianquanPay" data-id="20644125" data-price="20" data-page="65页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="bbs热点话题发现和监控系统">确定支付并下载</button> </div> </div> </div> </div> </div>  <div class="modal fade m-half-fullscreen-modal custom-modal-dialog" id="rechargeUnLoginImportPhone" tabindex="-1" role="dialog" aria-labelledby="rechargeEnoughModaLabel" aria-hidden="true"> <div class="modal-dialog modal-dialog-centered"> <div class="modal-content"> <div class="modal-header w-100"> <h5 class="mb-0">请先输入手机号</h5> <button type="button" class="close" data-dismiss="modal" aria-label="Close">×</button> </div> <div class="modal-body"> <form> <label> <i class="iconfont text-secondary"></i> <input type="text" placeholder="请输入手机号" id="importPhone" name="phone"> </label> </form> <div class="mt-5 text-center"> <button class="btn btn-primary px-5" id="rechargeUnLoginSurePhone">确定</button> </div> </div> </div> </div> </div> <div id="mobilePayBox" class="mobile-pay-box"></div> <div id="closeAlipay" class="close-ali-pay">关闭</div> <footer> <div class="container d-none d-lg-block mb-4"> <div class="d-flex justify-content-between footer-nav"> <ul class="d-flex foot-nav"> <li> <h5>常见问题</h5> <a class="text-decoration-none help-nav-item" href="/help/wenti/upload/" data-name="关于上传" target="_blank">关于上传</a><a class="text-decoration-none help-nav-item" href="/help/wenti/xiazai/" data-name="关于下载" target="_blank">关于下载</a><a class="text-decoration-none help-nav-item" href="/help/wenti/qinquan/" data-name="关于侵权" target="_blank">关于侵权</a><a class="text-decoration-none help-nav-item" href="/help/wenti/fenxaing/" data-name="文档上传教程" target="_blank">文档上传教程</a> </li> <li> <h5>关于我们</h5> <a class="text-decoration-none help-nav-item" href="/help/about/wzjs/" data-name="网站介绍" target="_blank">网站介绍</a><a class="text-decoration-none help-nav-item" href="/help/about/gywm/" data-name="关于我们" target="_blank">关于我们</a><a class="text-decoration-none help-nav-item" href="/help/about/lxwm/" data-name="联系我们" target="_blank">联系我们</a> </li> <li> <h5>版权问题</h5> <a class="text-decoration-none help-nav-item" href="/help/banquan/bqsm/" data-name="版权声明" target="_blank">版权声明</a><a class="text-decoration-none help-nav-item" href="/help/banquan/qqcl/" data-name="侵权处理" target="_blank">侵权处理</a><a class="text-decoration-none help-nav-item" href="/help/banquan/mzsm/" data-name="免责声明" target="_blank">免责声明</a> </li> <li> <h5>协议条款</h5> <a class="text-decoration-none help-nav-item" href="/help/xieyi/yhxy/" data-name="用户协议" target="_blank">用户协议</a><a class="text-decoration-none help-nav-item" href="/help/xieyi/fwtk/" data-name="用户服务条款" target="_blank">用户服务条款</a><a class="text-decoration-none help-nav-item" href="/help/xieyi/ysbh/" data-name="用户隐私保护" target="_blank">用户隐私保护</a> </li> <li> <h5>网站导航</h5> <a class="text-decoration-none help-nav-item" href="/sitemaps.xml" data-name="网站地图" target="_blank">网站地图</a> <a class="text-decoration-none help-nav-item" href="/list.html" data-name="全部分类" target="_blank">全部分类</a> <a class="text-decoration-none help-nav-item" href="/sitemaps/index.html" data-name="资源地图" target="_blank">资源地图</a> </li> </ul> <div class="foot-qrcode d-flex"> <div> <div class="subsitute-bg"><img src="https://www.wenku365.com/d/file/2022/07-08/f23df57d987ef7ad9acb33fe5abf9854.jpg"></div> <p>关注公众号<br></p> </div> </div> </div> </div> <div class="footer-copyright"> <p><a href="/" target="_blank">天天文库</a>定位于知识共享平台，用户可以上传优质的文档内容，提供知识服务，本平台完成后续的宣传推广、内容分发、知识创收等工作，为更多的知识创作者创造价值。</p> <p>本平台严格对内容的质量进行把关，为了能够健康、平衡的发展。如果您的权利被侵害，请联系我们的客服进行举报。客服QQ：3074922707 欢迎举报。</p> <p>Copyright 2004-2023 <a href="https://www.wenku365.com/" target="_blank">wenku365.com</a> All Rights Reserved <a href="https://beian.miit.gov.cn/#/Integrated/index" rel="nofollow" target="_blank">闽ICP备15016911号-5 </a></p> <p>闽公网安备 <a href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=35052402000320" rel="nofollow" target="_blank">35052402000320</a></p> <p> <a href="https://www.wenku365.com/zt.html" target="_blank">专题文集</a> <a href="https://www.wenku365.com/zt-90007.html" target="_blank">丨职业培训</a> <a href="https://www.wenku365.com/zt-90005.html" target="_blank">丨实用范文</a> <a href="https://www.wenku365.com/zt-90010.html" target="_blank">丨商业材料</a> <a href="https://www.wenku365.com/zt-90013.html" target="_blank">丨合同协议</a> <a href="https://www.wenku365.com/zt-90009.html" target="_blank">丨PPT专题</a></p> </div> </footer> <script> if (/Android|webOS|iPhone|iPod|mobile|BlackBerry|ucweb|SymbianOS/i.test(navigator.userAgent)) { var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?4632cf11732a8c1c3d1dc47558ae7444"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); } else{ var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?3b8c97f8bd7ac4a9ba9ae67ec48cab62"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); } </script> </body> <script src="//static.wenku365.com/wenku365/js/global.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/clipboard.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/jquery.treeview.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/jquery.share.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/common.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/downloadFile.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/loginWindow.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/windowRecharge.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/viewer.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/detail.js?1.0.7"></script> <script src='/wenku/onclick/20644125'></script> </html>