主题web挖掘算法研究与应用论文

主题web挖掘算法研究与应用论文

ID:34139337

大小:2.87 MB

页数:53页

时间:2019-03-03

主题web挖掘算法研究与应用论文_第1页
主题web挖掘算法研究与应用论文_第2页
主题web挖掘算法研究与应用论文_第3页
主题web挖掘算法研究与应用论文_第4页
主题web挖掘算法研究与应用论文_第5页
资源描述:

《主题web挖掘算法研究与应用论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东师范大学硕士学位论文主题Web挖掘算法研究与应用姓名:周鑫申请学位级别:硕士专业:计算机软件与理论指导教师:张化祥20090518山东师范大学硕士学位论文主题Web挖掘算法研究与应用摘要万维网已经和我们生活的各个方面紧密联系在一起了。我们使用它获取信息,与人们进行交流,使用万维网更加高效地工作,进行各项社会活动。如何从Web上快速准确的检索到用户所需信息成为亟待解决的问题。为应对这一问题,在信息检索领域产生了主题Web挖掘这一研究课题。它的基本思想可以概括为:根据用户定义的某一主题,用主题爬虫遍历网络,收集与主题相关的页面,然后将收集到的

2、页面进行智能的分析,最后以友好的检索方式满足对某一特定主题的检索要求。主题Web挖掘涉及多个学科,包括机器学习、信息检索、语言分析、统计学、计算机网络等。主题Web挖掘具有广泛的应用前景,包括专业领域知识库、企业决策支持、客户流失分析、潜在客户分析、企业管理优化、行业趋势分析等,与现有的通用搜索引擎相互补充。本文在分析了主题Web挖掘的研究内容和当前研究存在问题的基础上,将重点研究三个问题:一是如何提高Web文本的分类准确率;二是如何提高主题爬虫的性能,特别是在反作弊方面改进主题爬虫对页面主题判定的准确率;三是根据以上研究,设计并实现了主题W

3、eb挖掘的原型系统Gsearch,是一个机器学习方面的主题搜索引擎,通过大量对比实验验证了本文提出的模型和算法的有效性。本文的创新点主要体现在以下几个方面:1.本文在分析当前主题爬虫缺少反作弊能力而影响爬虫准确性的基础上,提出了基于反作弊检测技术的主题爬虫模型,并实现了antiSpam主题爬虫算法,使主题爬虫具有了反作弊的功能,提高了主题爬虫下载页面的主题相关度,增强了主题爬虫的适应性。2.本文将Web文本过滤问题转化为Web文本分类问题,提出了两个Web文本分类算法:基于聚类的PSK-means算法和基于模糊认知图的correlation—

4、FCM算法。PSK-means是对传统的k-means算法的改进,它预先将相似数据进行合并,之后再进行聚类分析;correlation—FCM是一种基于模糊认知图的文本分类推理算法,使文本分类成为一个基于文本特征项的权和特征项与类别的相关度构成的模糊认知图进行推理的过程。通过在Gsearch平台上大量实验,验证了算法的有效性。3.本文设计并实现了面向机器学习领域的主题Web挖掘的原型系统Gsearch,用于验证本文中模型及算法的有效性。Gsearch包括Gcrawler主题爬虫模块,分词索引模块,页面评价模块、Gminer数据挖掘模块、查询分

5、析模块及用户界面。它具有跨平台、分布式、高可扩展等特性,实现了Web信息的下载、保存、归档、分析和查询功能。该系统在很多应用领域,包括企业决策支持、行业市场山东师范大学硕士学位论文分析、企业管理优化、客户情况分析和构建专业领域知识库等,都广泛应用前景。关键词:主题Web挖掘,主题爬虫,Web文本分类,Web作弊检测,数据挖掘,全文索引分类号:TP274Il盘东帮蓖大学硕±学整论文TopicWebMiningAlgorithmsResearchandApplicationABSTRACTWorldWideWeb(ortheWebforshort

6、)hascloselyrelatedtovariousaspectsofourlives.Weuseittoobtaininformation,communicate酶氇people,workonthewebandconductvarioussocialactivities.Howtoobtaintherequiredinformationfromthewebquicklyandaccuratelybecomesaseriousproblem。Toaddressthisproblem,topicwebmininghasbeenproposed

7、inthefieldofinformationretrieval.Thebasicideaoftopicwebminingcanbesummarizedasfollows:Inaccordancewithauser-definedtopic,topicalcrawlerscrawltheWeb,collecttopic—relatedpages.Thecollectedpagesareusedtodealwithintelligentanalysis.Finallyusefriendlyretrievalmethodstomeetaparti

8、cularsearchrequest。Topicwebmininginvolvesmultipledisciplines,includingmachinelearn

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。