欢迎来到天天文库
浏览记录
ID:11040892
大小:313.00 KB
页数:6页
时间:2018-07-09
《研讨环境中的专家发言文本聚类及其可视化》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、研讨环境中的专家发言文本聚类及其可视化研讨环境中的专家发言文本聚类及其可视化1、引言研讨是一种基于言语的群体交互行为,通过研讨可以消除分歧达成共识。群体研讨环境[1]是一种计算机支持研讨工具。群体研讨环境的开发涉及研讨模型及共识达成算法、研讨过程控制和研讨结果可视化展示及利用等多个理论和技术问题,其中研讨模型及共识达成算法则是最重要的研究内容,它决定了系统能否自动得出研讨结果。目前对研讨模型的研究大都基于抽象辩论理论,即把专家发言抽象为一个结点,而不考虑发言的内容,如文献[2]根据发言结点之间的攻击和支持关系确定发言结点的可接受性,文献[3-5]则给发言结点或发言之间的响应强
2、度赋予量化值,再根据这些量化值求得发言结点的共识值。事实上,群体共识隐藏在专家发言之中,对发言文本内容进行分析处理是提取群体共识的重要手段。目前对发言文本分析已有一些研究,如白冰等[6]提出了一种基于主题聚类的热点提取方法,通过对发言主题进行聚类分析,得出多数人支持的热门主题。唐锡晋等[7]提出用对偶刻度法对专家发言关键词进行聚类分析,以关键词为基点对专家进行聚类,形成专家与观点之间的映射关系,以激励成员产生联想,深入思考,产生更多的创意。李欣苗等[8]提出了一种及时的挖掘并识别海量研讨主题,利用可视化展示给成员,从而激发成员的创新思维的方法。以上这些研究的分析对象只是专家发
3、言的主题,或发言文本中的关键词,但没有对发言全文进行分析。本文针对在研讨环境中的发言文本利用启发式聚类算法[9]对专家的发言信息进行聚类处理,以图形化的方式展示出专家发言的聚集关系,找出意见相似的专家发言簇,专家们利用聚类结果可以实时调整自己的发言,避免群体思维,促进最终决策的达成。2、研讨发言文本分析2.1研讨文本预处理:研讨文本是一种无结构的数据,需要将它们转化成计算机能处理的数据。预处理的关键性操作就是对文本中的词语进行切分,将连续的一句话分成无依赖关系并且按一定规则排列的单个词语,然后过滤掉它们中的无关词组,从而获取一个文本特征词的集合,最后按照停用词表中的词语将语料
4、中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉。其处理流程如图1所示。NYNY读入文本分词读入一个词删除是否停用词条串词条结束结束开始停用词表图1:文本预处理2.2文本特征词权重确定及文本向量生成2.2.1文本特征项选择与加权首先根据研讨内容及相关领域知识建立特征词库,标识每个词的权重,再根据文本内容利用TF-IDF[10]方法确定特征词的权重。词频(termfrequency,TF),是指某一个给定的词语在该文本中出现的频率。这个数研讨环境中的专家发言文本聚类及其可视化值是对词的个数(termcount)的归一化,以防止它偏向长的文本。对于在某一特定文本
5、里的词来说,它的重要性可表示为:,其中是指在中出现的次数,而是中词的总数。逆向文本频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量。某一个特定词的逆向文本频率可以由总文本数目除以包含该词语的文本的个数,其公式可以表示为:,其中D=是文本集,是文本集中文本的个数,是指包含的文本的个数。如果该词语不在文本集中,即未在任意一个文本中出现,就会导致分母为零,因此一般的处理方法是将其设为:。那么TF-IDF可以表示为:,其主要作用是过滤掉常见的词语,保留重要的词语。2.2.2向量空间模型VSM向量空间模型(Vectorspacemodel)[1
6、1]就是把文本内容转化为相应的文本向量,通过计算文本向量之间的相似性来度量文档间的相似性。常用的文本向量相似性度量方式是余弦距离。文档用十分简单的向量表示,简化了文本中关键词之间的复杂关系,使得文本分析具备了可计算性。用D=来表示文本集,T=来表示特征项集。特征项是出现在文本集D中的有意义的单词或短语。文本di的特征项集为:,其中是文本di的第k个特征项,且,。一个特征项在一个文本向量中的权重表示为:,文本di的特征项的加权集表示为:,简化为,将其称为文本di的带权向量表示,则含有m个文本的文本集D可以表示成一个矩阵,其中表示第k个文本的文本向量,。2.3文本相似度计算在文本
7、向量空间中,每个文本对象可映射为一个特征向量,任意两个文本向量之间就会形成一个空间向量夹角,这个空间向量夹角的余弦值就是这两个文本的相似性量度。文本与文本的相似度计算模型表示为:其中表示文本向量的长度,表示第i个文本的第k维的取值,。为文本和文本研讨环境中的专家发言文本聚类及其可视化的相似度,简记为,其中,其值越大表示文本的相似度越大。为文本和的向量内积,、分别为文本和的范数(长度)。2.4文本聚类算法本文在文献[9]的算法的基础之上提出一种基于中心点的启发式聚类算法。设有两个文本向量和,,它们的相似度
此文档下载收益归作者所有