正文描述:《自动网页主题聚类与分类——自动网页主题聚类方法研究 毕业设计论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业设计题目:自动网页主题聚类与分类——自动网页主题聚类方法研究目录第一章:引言51.1课题的研究意义51.2课题的主要内容61.3国内外研究现状6第二章:文本聚类算法研究背景72.1聚类分析72.2文档预处理8第三章:基于划分和层次的文本聚类方法103.1基于划分的聚类方法103.2基于层次的聚类方法12第四章:基于语义关联网络文本聚类154.1语义Web简介154.2从网络中提取语义164.3语义聚类算法思想17第五章:文本聚类分析效果评价185.1语料库的训练与测试185.2阈值策略185.3评价指标195.4实验结果比较与评价20第六
2、章:结语22参考文献22自动网页主题聚类方法研究摘要聚类分析是一种群分析,沿用了“物以类聚”的思想,把世间万物分门别类地聚集起来形成一个个群体。在实际应用中,通常是对一个样本集合进行聚类,然后划分出不同的类别并分组处理。聚类分析的应用十分广泛,涵盖了生物学、数学、统计学、空间数据库等领域,近年来更是在企业公关、市场营销等商业领域普及。文本数据挖掘是数掘挖掘的一个边缘分支学科,旨在快速地从海量文本中提取出有效信息,涉及机器学习、数理统计、神经网络、自然语言处理等知识。文本在聚类前必须经过预处理过程,文本在计算机中只是字符串的集合,因此需要转换为计算
3、机易于操作的数据,空间向量模型简便直观地解决了这一问题。本文着重介绍了基于划分、基于层次和基于语义关联的聚类算法,并在自定义的语料库中进行实验研究,把结果与传统结论作对比评价。关键词数据挖掘k-means语义关联效果评价ResearchesonautomaticwebpageclusteringmethodAbstract:Clusteranalysisisananalysismethodwhichfollowsthethoughtof"Birdsofafeatherflocktogether",categorizedallthingscomet
4、ogethertoformagroup.Inpraticalapplication,acollectionofsampleclusterusuallydividedindifferentcategoriesandgroups.theapplicationClusteranalysisisveryextensive,coveringfieldssuchasbiology,mathematics,statistics,spatialdatabases.Inrecentyears,italsocoverscorporatecommunications,
5、marketingandcommercialareasuniversally.Textdataminingisoneofthefewminingexcavationedgebranch,isdesignedtoquicklyextractvalidinformationfrommass-text,involvingknowledgeofmathematicalstatistical,neuralnetworks,machinelearning,naturallanguageprocessing.Textpreprocessingthatmustb
6、edonebeforethecluster,Textisonlyacollectionofstringsincomputers,theyneedstobeconvertedtodataforprocessingeasilyincomputers,spacevectormodelissimpleandintuitivesolutiontothisproblem.Thisarticlefocusesontheclusteringalgorithmbasedonpartitioningmethod,hierarchicalmethodandsemant
7、icassociation,anddoexperimentalstudyoncustomcorpus,andcontrastexperimentalresultswithtroditionalconclutions.Keyworddataminingk-meanssemanticassociationeffectassessment第一章:引言1.1课题的研究意义人类如今已进入了信息爆炸的大数据时代。数据分析、数据仓库、数据挖掘等等的研究与应用极大地刺激了当前的需求,各行业人士趋之若慕。若现今的技术发展跟不上信息爆炸的速度,我们便无法对海量数据进
8、行分析应用,制约社会的发展。从商业角度来说,数据挖掘是新型商业信息处理技术。它能够在商业的方方面面发挥巨大作用。比如研究消费者的行为习惯
显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。