欢迎来到天天文库
浏览记录
ID:14674728
大小:24.50 KB
页数:5页
时间:2018-07-29
《网络舆情分析中的文本聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、网络舆情分析中的文本聚类算法 【摘要】随着互联网的发展,网络逐渐成为社会舆情表达和传播的主要载体。由于网络信息具有传播速度快、数据量大、隐蔽性强等特点,只有借助计算机技术才能够实现有效、全面、快速的网络舆情分析系统。为了更好地了解和实现网络舆情系统中话题发现和热点检测的功能,本文主要介绍文本聚类的一些算法、技术和研究现状。 【关键词】网络舆情文本聚类 1引言 网络舆情分析和预警系统通过对互联网中的各类信息,包括各大论坛、百度贴吧、微博等进行24小时监控,实时采集话题性强、时效性新的各类内容和消息。系统架构主要包
2、括舆情信息采集、信息预处理、信息分析、舆情信息上报四个模块。舆情分析模块主要对处理后的网络文本数据进行分析、挖掘,以实现热点话题和敏感信息的识别和跟踪。文本聚类作为一种无监督的机器学习方法,由于不需要进行训练,并且不需要预先对网络文本手工标注类别,因此具有较高的灵活性和自动化处理能力,成为网络舆情分析系统中组织文本信息、挖掘热点话题的主要技术手段。 2关键技术和算法 进行文本聚类之前,首要问题是对文本内容建立文本信息特征,即使用特定形式的特征向量(T1,V1,T2,V2,…,Tm,Vm)来表示文档,其中Ti表示特征
3、词,由分词后获取,Vi表示第i个词在文档中的权重,m表示特征词的个数。确定信息特征的常用技术是:先对文本信息进行词性标注、语义标注等预处理,构建统计词典,然后对文本进行分词处理和特征词权重的确定。计算权重的方法包括布尔权重、词频权重和TFI-DF权重三种。布尔权重是最简单的表示方法,若第i个特征词在本篇文档中出现,则其权重为1,否则为0;词频权重将第i个特征词在本篇文档中的出现概率作为对应的权值;TFI-DF权值由两部分组成,一部分是TF,表示一个词在本篇文本中出现的次数,即词频。另一部分IDF表示所有文本中有多少篇包
4、含了这个词,即逆向文档频率,通常由公式IDFi=log((1+
5、D
6、)/
7、Di
8、)计算得到,其中
9、D
10、表示文本总数,
11、Di
12、表示包含第i个关键词的文本数量。TFI-DF的权值就是由TF和IDF相乘得到,被证明是最有效的确定特征词权重的方法。 由于在建立文本信息特征的过程中,许多关键词构成了海量特征词集合,因此导致了文档特征向量维数的增加,在影响计算效率的同时,也为稀疏文本向量的区分和比较带来困难。因此,在对文本进行聚类处理之前,应对文本信息特征向量进行缩减。通常的方法是对所有特征词的权重排序,选取预定数目的最佳特征词
13、作为结果的特征子集。特征词的个数以及权值评价标准需要根据具体问题来分析决定。第二种常用方法是由网络信息的特点决定的,网络信息一般带有标题,并且在标题中总结概括了正文的主要内容,因此也可将标题内容表示为文本信息特征。此外,在对正文统计特征词时,可以只针对具有实际意义的名词和动词,这既减少了特征词数量,也保留了关键信息。将标题向量的相似度和正文向量的相似度进行加权求和就得到了两篇文本的相似度。 完成以上步骤后,就将文档表示成向量空间中的一个点,然后通过计算点之间的距离来对文本进行聚类。相似度是定义聚类算法的基础,它主要用
14、来比较衡量两个对象的相似程度。在网络舆情分析中,两个文本特征对象的相似度量标准对大多数聚类算法都是必不可少的。计算相似度的方法有多种,在文本向量计算中一般使用余弦相似度公式,而在几何中常用欧几里得距离。余弦相似度不会放大数据对象重要部分的作用,而欧几里得距离的度量方法则在一定程度上放大了较大元素误差在距离测度中的作用。目前,文本聚类的方法大致可以分为两种类型:层次聚类法和平面划分法。 层次聚类法将所有文本的特征向量组织成一棵聚类的树,有自底向上的凝聚型和自顶向下的分裂型两种。凝聚型开始将所有文本向量作为一个单独的对象
15、,然后不断相继合并相似的对象和类簇,直到到达终止条件或者合并为一个类簇。分裂型的聚类方法过程与之相反,开始将所有文本向量置于同一个类簇中,然后通过不断迭代将类簇分解为更小的类簇,直到到达终止条件或者每个向量在单独的一个类簇中。常用的层次凝聚法包括Single-link和group-average方法。 平面划分法中有两个经典算法:k平均值算法和k中心点算法。K平均值算法首先把所有文本特征随机地分配到k个非空的类中,然后根据类中所有的文本特征计算每个类的平均值,并用该平均值表示相应的类,根据每个对象到各个类中心的距离,
16、将其重新分配到与它最接近的类中。重复执行计算和分配步骤,直到不再有新的分配发生。K中心点算法随机选择k个文本特征对象作为初始的类中心点,然后对每一组非中心对象j和中心对象i,计算i被j替代的总代价,若代价<0,i被替换,然后根据所有非中心点到中心点的距离重新分配非中心点的所属类。重复执行替换和分配的过程直到不再有新的分配发生。
此文档下载收益归作者所有