资源描述:
《基于文献聚类的数据挖掘模型设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于文献聚类的数据挖掘模型设计与实现参赛队员:张静,李逸,徐良飞指导老师:魏建香徐斌褚炜鑫(南京人口管理干部学院江苏南京210042)摘要:聚类分析是统计学中的一项重要技术。通过聚类可以发现隐藏在海量数据背后知识。本文首先建立空间向量模型,改进了传统相似度的计算模型,提出了一种基于摘要词对关键词加权贡献的相似度模型,使得文献的空间向量更加精确。数据来源于05年CSSCI文献数据库图书情报学的3千多条文献数据,并通过中知网查询相关文献的摘要。通过数据清洗、去噪声、降维、规格化处理、样本抽样等一系列步骤,得到最终用于聚类的681篇文献和108个学科特征原子词。利用Matlab软
2、件编程实现了FCM算法的文献聚类。将聚类的结果通过基于学科原子特征词的学科交叉表来表示,统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点,以及图书情报学新的学科增长点,并对结果进行了检验,检验结果表明该统计模型是科学的、有意义的。关键词:聚类;交叉学科;关键词;摘要;相似度;FCM一、引言1.研究背景聚类分析(ClusteringAnalysis)是统计、模式识别和数据挖掘等领域中一个非常重要的技术,文献聚类就是依据文献之间的相似度按照一定的算法准则,挖掘隐藏在海量文献数据背后的有用知识:如学科交叉、研究热点和新的研究方向。科学研究需要创新。科学技术的发展为每个学科
3、的发展带来新的机遇的同时,也带来更为严峻的挑战。目前,文、理、工、管等学科之间相互渗透、交叉、融合已经成为一种潮流和趋势,其深度和广度正在进一步深化。众所周知,近代科学发展特别是科学上的重大发现和国计民生中的重大社会问题的解决,常常涉及不同学科的相互交充满和相互渗透。学科交叉逐渐形成一批交叉学科,如化学与物理学的交叉形成了物理化学和化学物理学,化学与生物学的交叉形成了生物化学和化学生物学,物理学与生物学交叉形成了生物物理学等。这些交叉学科的不断发展大大地推动了科学进步,因此学科交叉研究(interdisciplinaryresearch20)体现了科学向综合性发展的趋势。科
4、学上的新理论、新发明的产生,新的工程技术的出现,经常是在学科的边缘或交叉点上,重视交叉学科将使科学本身向着更深层次和更高水平发展,这是符合自然界存在的客观规律的。由于现有的学科是人为划分的,而科学问题是客观存在的,根据人们的认识水平,过去只有天文学、地理(地质)、生物、数学、物理、化学六个一级学科;而经过20世纪科学的发展和交叉研究,又逐渐形成了新的交叉学科,如生命科学、材料科学、环境科学等。因此研究学科交叉可以反映学科的研究的热点和发展趋势。本次统计建模正是基于以上的研究背景,通过文献聚类来研究学科交叉,其意义在于:(1)通过对文献数据的聚类分析,挖掘学科交叉点,使研究者
5、了解本学科目前的研究现状,如学科发展前沿与热点问题等,以提高研究者的创新意识和创新动力,为科学研究提供决策支持;(2)为管理者和研究机构提供决策支持,如交叉学科的政策支持、研究经费投入、人才培养方向等;(3)通过学科交叉的比较,使学科本身获得动力,提升学科竞争力,使学科能更好地适应社会和经济的发展,更好地服务社会。2.国内外研究现状不同的数据库,对其文献进行分类有不同的方法,没有一种方法能对所有数据库的文献分类都具有高效率、高精确率。对于科学文献的分类,目前主要采用的方法有[1]:(1)引文分析法:引文分析是指通过对文献中所附的参考引文进行计量统计分析,从而揭示科学技术发展
6、的历史及现状。其目的是寻找文献之间的联系来研究文献内在联系和科学结构的一种方法。(2)关键词分析法:关键词分析就是通过对反映文献主题内容的词进行关联性或相异性定量分析,研究文献内在联系和科学结构的一种方法。(3)聚类分析法:聚类分析是指根据分析对象彼此之间的相关程度把文献分成类群,使群内尽量相似,群间尽量相异,然后进行分析研究的过程。(4)因素分析法:因素分析的概念是英美心理统计学者们最早提出的,因素分析法是从试验所得的m×n个数据文献中概括和提取出较少量的关键因素,它们能反映和解释所得的大量观测事实,从而建立起最简洁、最基本的概念系统,揭示出事物间最本质的联系。(5)关键
7、词分析与共引聚类分析相结合研究法。目前国内研究的主要热点集中在第一方面,而国外在该领域的最新研究是通过关键词分析和共引聚类分析相结合,以揭示文献的主题结构。3.文本挖掘中的分词技术中文文本挖掘技术成败的关键在于文本中词汇切分的成功与否。由于汉语语言的特殊性和复杂性,使中文词汇的切分成为一个很伤脑筋的问题。而如果不进行分词,中文信息处理的其它很多研究就无法进行。分词技术中基于词库的算法目前使用较广,也较为成熟,如正向、逆向最大匹配法、逐词遍历法。这类算法分词的正确性很大程度上取决于所建的词库。一个词库应具有完备性和完