资源描述:
《1208114141-徐渊-计算机科学与技术-基于web内容的数据挖掘分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、河南师范大学本科毕业论文河南师范大学本科毕业论文学号:1208114141基于Web内容的数据挖掘分析学院名称:计算机与信息工程学院专业名称:计算机科学与技术专业年级班别:2012级1班姓名:徐渊指导教师:于红斌2016年5月河南师范大学本科毕业论文河南师范大学本科毕业论文基于Web内容的数据挖掘分析摘要二十一世纪以来,互联网技术飞速发展,Web也越来越流行,Web信息资源也是呈现爆炸式增长。基于Web内容的数据挖掘分析,通过收集Web访问者的互联网浏览记录、上网习惯等方式得到原始数据,用来改进互联网用户的操作体验,提升
2、Web服务,也有利于商户开展有关的电子商务活动。本文讲述了从Web挖掘到Web内容挖掘、Web结构挖掘、Web使用挖掘的相关内容,重点简述了Web使用挖掘的过程。表明了Web数据挖掘的主要应用方向,并着重分析相关应用方向的关键技术,然后介绍了Web数据挖掘的技术实现,有关联规则,序列模式挖掘技术,分类、聚类技术,路径分析技术,以及最后的Web挖掘技术的流程。 关键词数据挖掘;Web挖掘;信息提取DataMiningAnalysisBasedonWebContent AbstractThetwenty-firstcen
3、tury,therapiddevelopmentofInternettechnology,Webhasbecomeincreasinglypopular,Webinformationresourcesisexplosivegrowth.DatamininganalysisbasedonWebcontent,browsethroughthecollectionofWebvisitorsInternetrecords,surfinghabitsandotherwaystogettherawdatausedtoimprovet
4、heoperationoftheInternetuserexperience,enhancetheWebservices,butalsoconducivetoconductbusiness-relatede-commerceactivities.ThisarticledescribestheminingfromtheWebtoWebcontentmining,Webstructuremining,Webusagemining-relatedcontent,focusingbrieflyonWebusageminingpr
5、ocess.ItindicatesthedirectionofthemainapplicationWebdatamining,andanalyzesthekeytechnology-relatedapplicationdirection,andthenintroducedtheWebdataminingtechnology,associationrules,sequentialpatternmining,classification,clusteringtechnology,pathanalysis,andlastWeb
6、miningprocess. KeywordsDatamining;Webmining;Informationextraction11河南师范大学本科毕业论文前言 近年来,网络以及通信技术不断发展,互联网无疑成为全世界影响最大的信息服务的平台,给人们的生活带来了非常大的变革。如今,信息显得特别重要,互联网上的相关信息资源也无比丰富,人们在对待这么丰富的信息资源时,只有研究出关键相关技术才能从中挖掘出有价值的信息来。Web数据挖掘就这样诞生了,它可以帮助人们挖掘出人们所需要的隐藏在巨大信息资源背后的有效信息,符合人们的
7、预期,这已经成了热门的研究方向。1Web挖掘1.1概念在1996年,OrenEtzioni第一次提出了Web挖掘这个概念。Web挖掘就是从海量的Web资源当中通过采用数据挖掘的技术能动的得到需要的信息[1,11]。数据挖掘是有数据库、AI、自然语言等几个方面的汇总[2]。 Web数据挖掘的步骤如下: 1)发现资源:任务是在Web当中检索数据; 2)信息选取和数据预处理:将已经挑选得到的某些原始数据根据相关技术进行预处理[3]; 3)发现获取概要模式:利用某些特定技术将藏匿在不同的Web当中的概要模式进行提取;
8、4)概要模式分析:确认已经获得的模式并解释。1.2Web数据挖掘的分类 Web数据挖掘的通常分类方法是依据挖掘对象的不相同,分类如下:web的内容挖掘;web的结构挖掘;web的使用挖掘。如图1。1.2.1Web的内容挖掘 Web的内容挖掘就是针对Web文档,对于那些可以利用原始数据预处理技术处理的海量数据进行处