web挖掘在blog空间里的运用

web挖掘在blog空间里的运用

ID:9116761

大小:64.50 KB

页数:6页

时间:2018-04-18

web挖掘在blog空间里的运用_第1页
web挖掘在blog空间里的运用_第2页
web挖掘在blog空间里的运用_第3页
web挖掘在blog空间里的运用_第4页
web挖掘在blog空间里的运用_第5页
资源描述:

《web挖掘在blog空间里的运用》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、Web挖掘在blog空间里的运用Web挖掘是目前计算机技术领域中的研究热点,它是现代科学技术相互渗透与融合的必然结果。Blog作为一种全新的网络发布模式,在很大程度上增强了网络信息的幵放性,吸引着越来越多的网络用户。首先介绍了web数据挖掘的概念,讨论了web数据挖掘的种类,随后对Blog,RSS的特征进行了阐述,最后重点论述了RSS空间里的的数据挖掘。己关键词:Web挖掘;Blog;RSS;XMLTP393A1009-3044(2007)17-31245-02TheApplicationofWebMininginBlogspaccCUILinl,2(1.

2、SchoolofComputer&Information,HefeiUniversityofTechnology,Hefei230009,China;2.DepartmentofComputerScienceandTechnology,SuzhouCollege,Suzhou234000,China)Abstract:Webminingisahottopicinthefieldsofcomputertechnologynow,itistheinevitableresultofinteractionofallkindsofmodernsciencetechn

3、ology.BlogmakeswebinformationmoreopenandusefultoagreatextentandattractsmoreandmorewebusersasanovelInternetpublicationmodel.ThispaperfirstlyintroducestheconceptofWebmining,discussestheclassificationofWebminingandnarratesthefeaturesofBlogandRSS.Atlast,thispaperelaborateswebmininginR

4、SSspace.Keywords:WebMining;Blog;RSS;XML1引言随着Interent(因特网)和Web(万维网)技术的发展,众多基于Web的应用系统应运而生,Blog就是其中之一,Blog除具有一般Webpage和Website所具有的大部分特征外,还具有本身所独有的特征。因此我们应针对Blog自身的特征,来进行数据挖掘,这样才能更好的从Blog系统中提取出真正有价值的知识。2Web挖掘2.lWeb挖掘的定义Web挖掘是一项综合技术,设计Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是指使用数据挖掘技术从Web文档和We

5、b活动中抽取感兴趣的、潜在的有用模式和隐藏信息。它是数据挖掘技术与Web技术的结合。从更为一般的角度出发,对Web挖掘可以作如下定义:Web挖掘就是从大景Web文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射:C-P[l]o2.2Web挖掘的分类Web上信息的多样性决定了Web挖掘任务的多样性,依据挖掘对象的不同大致可分为三个方面的挖掘研究:Web内容挖掘(Webcontentmining)、Web结构挖掘(Webstructuremining)和Web使用记录挖掘(Webusagemi

6、ning)。如图1所示。图12.2.1Web内容挖掘Web内容挖掘是指从Web文档内容或其描述中发现和抽取有用知识的过程。Web内容包含了多种多样的信息,这些信息由各种类型的服务和数据源组成,包括、FTP、Telnethe和其他各种通过Web可以访问的应用数据库等。Web内容挖掘的对象包括文本、图像、音频、视频、元数据和其他各种类型的数据等。2.2.2Web结构挖掘Web结构挖掘即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息。Web结构挖掘最著名的算法是

7、HITS算法和PageRank算法。2.2.3Web使用记录挖掘内容挖掘、结构挖掘的对象是Web上的原始数据,而Web使用记录挖掘则不同于前两者,它面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:包括服务器的日志记录、代理服务器口志、浏览器口志、用户会话信息、用户查询记录、用户注册信息、交易信息、Cookie中的信息、鼠标点击等一切用户与站点之间的交互记录。它通过挖掘这些数据来发现用户访问的模式,以找出用户的喜好、满意度,帮助站点管理者做出决策,增强站点的服务竞争力。3Blog(博客)技术介绍3.1Blog的基本概念Blog,是Webl

8、og的简称。Weblog,是Web和log的合成词。Web,指Wo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。