基于自组织特征映射海洋文献聚类的分析地研究和实现

基于自组织特征映射海洋文献聚类的分析地研究和实现

ID:32241823

大小:2.40 MB

页数:52页

时间:2019-02-02

基于自组织特征映射海洋文献聚类的分析地研究和实现_第1页
基于自组织特征映射海洋文献聚类的分析地研究和实现_第2页
基于自组织特征映射海洋文献聚类的分析地研究和实现_第3页
基于自组织特征映射海洋文献聚类的分析地研究和实现_第4页
基于自组织特征映射海洋文献聚类的分析地研究和实现_第5页
资源描述:

《基于自组织特征映射海洋文献聚类的分析地研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于自组织特征映射的海洋文献聚类分析的研究与实现摘要随着国家海洋战略的实施,与海洋有关的Web文献数迅速增长。对海洋文献进行聚类分析,有助于海洋信息挖掘,这对于海洋科技有重要意义。中文文档聚类分析包括数据库文档抽取、文档中文分词、构建文档集的表示模型、基于文档集模型进行聚类分析等步骤。与英文文档处理不同,中文文档的处理必须先进行分词。常见的分词方法有基于字符串匹配的、基于理解的和基于统计的三种方法。目前的分词方法基本满足了实际需求,关键是选择合适的分词软件。信息获取领域中,一般采用向量空间模型作为文档集的表示模型,从

2、该模型可容易地计算出文档之间的相关度,因而可用于文档聚类分析。聚类算法有很多,如基于划分的、基于层次的、基于密度的等多种算法,算法选择取决于应用目的。为构建基于自组织特征映射神经网络的海洋文献聚类系统,本文分析了中文分词的常用方法,研究了文档集的表示模型以及各种聚类算法,设计并实现了一个基于自组织特征映射神经网络的文档聚类分析系统OCA,主要工作及创新点如下:1.在分析和比较各种聚类算法的基础上,选择自组织特征映射(SOM)神经网络作为海洋文献聚类分析的算法,这里的SOM神经网络采用厨师帽获胜邻域,邻域内神经元调整权

3、值。2.研究了中文分词技术,比较了各种分词方法,选择分词准确率高的软件MMSEG实现对中文海洋文献的分词。3.用向量空间模型表示文档集,用广为接受的TFIDF表示词汇对文档语义的贡献。4.在Eclipse环境下用Java实现了一个基于SOM的海洋文献聚类系统OCA,从CNKI下载若干海洋文献,用OCA系统对其进行处理,实验表明该系统可对海洋文献进行有效的聚类分析。关键词:海洋文献;聚类分析;向量空间模型;自组织特征映射StudyandImplementationonClusteringAnalysisofOceanD

4、ocumentsBasedonSelf-OrganizingFeatureMapAbstractAlongwiththeimplementationofnationalseastrategy,thenumberofsearelatedWebliteraturegrowsrapidly.Doingclusteringanalysisonthesealiteratureishelpfulfortheseainformationmining,whichhasthevitalsignificanceregardingthes

5、eascienceandtechnology.ClusteringanalysisofChmescdocumentsinvolvesmanysteps,includingthedatabasedocumentsextraction,thedocumentsChineseparticiple,theconstructionofdocument-setexpressionmodel,documentset-basedclusteringanalysis,ere.DifferentwithEnglishdocumentpr

6、ocessing,Chinesedocumentsprocessingmustcarryontheparticiplefirst.Thecommonparticiplemethodsincludethecharacterstringmatching·based,theunderstanding-basedandthestatistics·based.Now,manyparticiplemethodshavemettheactualrequirements,thefocusisbasicallyonhowtoselec

7、ttheappropriateparticiplesoftware.Intheinformationretrievaldomain,vectorspacemodelisgenerallyusedastheexpressionmodelofdocumentset,fromwhichthecorrelationdegreebetweendocumentscanbeeasilycalculated,thusthemodelCallbeadoptedindocumentclusteringanalysis.There纠fem

8、anyehsteringalgorithms,likethedivision-based,thelevel-based,thedensity—basedandSOon,andthealgorithmchoiceisdecidedbytheapplicationgoal.Inordertoconstructthesealiteratureclus

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。