web挖掘在blog空间里的运用

web挖掘在blog空间里的运用

ID:10365057

大小:29.50 KB

页数:8页

时间:2018-07-06

web挖掘在blog空间里的运用_第1页
web挖掘在blog空间里的运用_第2页
web挖掘在blog空间里的运用_第3页
web挖掘在blog空间里的运用_第4页
web挖掘在blog空间里的运用_第5页
资源描述:

《web挖掘在blog空间里的运用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Web挖掘在blog空间里的运用本栏目责任编辑:冯蕾?s?网络通讯与安全?Web挖掘在blog空间里的运用崔琳(1.合肥工业大学计算机与信息学院,安徽合肥230009;2宿州学院计算机科学与技术系,安徽宿州234000)摘要:Web挖掘是目前计算机技术领域中的研究热点,它是现代科学技术相互渗透与融合的必然结果.Blog作为一种全新的网络发布模式.在很大程度上增强了网络信息的开放旺,吸引着越来越多的网络用户.首先介绍了web数据挖掘的概念,讨论了web数据挖掘的种类,随后对B1oRSS的特征进行了阐述,最后重点论述了RSS空间里的的数据挖掘.关键词:web挖掘:Blog;R

2、SS:XML'中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)1731245-02TheApplicationofWebMininginBlogspaceCUILin(1.SchoolofComputer&Information,HefeiUniversityofTechnology,Hefei230009,China;2.DepartmentofComputerScienceandTechnology,SuzhouCoHege,Suzhou234000,China)Abstract:Webminingisahottopicinthef

3、ieldsofcomputertechnologynow,itistheinevitableresultofinteractionofallkindsofmodemsciencetechnology.BlogmakeswebinformationmoreopenandusefialtoagreatextentandattractsmoreandmorewebusersasanovdInter—netpublicationmode1Thispaperfirsclyintroducestheconceptofwebmining,discussestheclassificati

4、onofwebminingandnarratesthefea—turesofBlogandRSS,Atlast,thispaperelaborateswebmininginRSSspaceKeywords:WebMining;Blog;RSS;XML1引言随着Interent(因特网)和Web(万维网)技术的发展,众多基于Web的应用系统应运而生.Blog就是其中之一.Blog除具有一般Webpage和Website所具有的大部分特征外.还具有本身所独有的特征.因此我们应针对Blog自身的特征,来进行数据挖掘,这样才能更好的从B1og系统中提取出真正有价值的知识.2Web

5、挖掘2.1Web挖掘的定义Web挖掘是一项综合技术,设计Web,数据挖掘,计算机语言学,信息学等多个领域.Web挖掘就是指使用数据挖掘技术从Web文档和Web活动中抽取感兴趣的,潜在的有用模式和隐藏信息.它是数据挖掘技术与Web技术的结合.从更为一般的角度出发,对Web挖掘可以作如下定义:Web挖掘就是从大量Web文档结构和使用的集合C中发现隐含的模式P.如果将C看作输入.P看作输出.那么Web挖掘的过程就是从输入到输出的一个映射:∈:C—P『112.2Web挖掘的分类Web上信息的多样性决定了Web挖掘任务的多样性.依据挖掘对象的不同大致可分为三个方面的挖掘研究:Web

6、内容挖掘(Webcontentmining),Web结构挖掘(Webstructuremining)和Web使用记录挖掘(Webusagemining).如图1所示.图12.2.1Web内容挖掘Web内容挖掘是指从Web文档内容或其描述中发现和抽取有用知识的过程Web内容包含了多种多样的信息.这些信息由各种类型的服务和数据源组成.包括WWW,兀1P,Telnethe和其他各种通过Web可以访问的应用数据库等Web内容挖掘的对象包括文本,图像,音频,视频,元数据和其他各种类型的数据等.2.2.2Web结构挖掘Web结构挖掘即通过分析一个网页链接和被链接数量以及对象来建立We

7、b自身的链接结构模式这种模式可以用于网页归类.并且可以由此获得有关不同网页间相似度及关联度的信息.Web结构挖掘最着名的算法是HITS算法和PageRank算法2.2.3Web使用记录挖掘内容挖掘,结构挖掘的对象是Web上的原始数据.而Web使用记录挖掘则不同于前两者.它面对的是在用户和网络交互的过程中抽取出来的第二手数据这些数据包括:包括服务器的日志记录,代理服务器日志,浏览器日志,用户会话信息,用户查询记录,用户注册信息,交易信息,Cookie中的信息,鼠标点击等一切用户与站点之间的交互记录它通过挖掘这些数据来发现用户访问

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。