基于网络爬虫原理web内容挖掘技术研究

基于网络爬虫原理web内容挖掘技术研究

ID:5244883

大小:30.00 KB

页数:8页

时间:2017-12-06

基于网络爬虫原理web内容挖掘技术研究_第1页
基于网络爬虫原理web内容挖掘技术研究_第2页
基于网络爬虫原理web内容挖掘技术研究_第3页
基于网络爬虫原理web内容挖掘技术研究_第4页
基于网络爬虫原理web内容挖掘技术研究_第5页
资源描述:

《基于网络爬虫原理web内容挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于网络爬虫原理Web内容挖掘技术研究  摘要:目前Web数据挖掘技术已得到广泛应用,通过对Web挖掘分类和挖掘基本理论的分析,提出网络爬虫原理内容挖掘方法,深入分析这种方法的原理和工作流程。爬虫原理的应用可满足特定用户的需求,实现高效、快捷、针对性强的查询。关键词:Web挖掘分析;网络爬虫;原理分析中图分类号:TP391文献标志码:A文章编号:1006-8228(2013)07-01-020引言8随着Internet的日益普及,电子商务正以其成本低廉、方便、不受时空限制等突出优点而逐步在全球流行。同时经济模式也发生了变化,从传统的实体商店到Internet上的电子交易,改变了销售商和顾客

2、的关系。现在,网上顾客的流动性很大,他们更多关注商品的使用价值和价格,而不像以前更多关注品牌和地理因素。因此,电子销售商一个主要的挑战是尽可能多地了解到客户的兴趣爱好和价值取向,以保证在电子商务时代的竞争力。通过Web日志挖掘,可以发现顾客的购买偏好;发现忠实客户,为他们提供个性化的服务,延长客户的驻留时间;发现潜在用户,为他们提供个性化页面,变潜在用户为忠实客户,扩大市场占有率;分析客户未来可能发生的行为,进行有针对性的电子商务营销活动,提高广告的投资回报率。所以从长远看对基于Web数据挖掘的研究很有必要。1Web数据挖掘概述Web数据挖掘是数据挖掘技术的重要应用,它是指在大量训练样本的

3、基础上,得到数据对象间的内在特性,并以此为依据在网络资源中进行有目的的信息提取[1]。1.1Web数据挖掘流程Web数据挖掘总体上讲来,可以由五个流程来完成,如图1所示。⑴Web查找资源:根据所提供的目标Web文档内容,采用一定的技术方法获得相应的数据,形成挖掘的数据源。需要说明的是,这部分资源不仅局限于在线Web文档资源,还包括与其相关的电子邮件、电子文档、新闻组,或者网站的日志数据资源,甚至还可包括通过Web形成的交易数据库中的数据资源。如何对这些资源进行融合是一个极为重要的问题。⑵信息选择和预处理:通过查询获得的数据源,从中筛选出有用的信息,并将其按一定的类型进行归集。⑶模式发现:针

4、对归集得到的有用信息,将其应用于某一具体的站点或多个相应的站点,并进行自动模式发现。⑷8模式分析:对模式发现阶段得到的一些模式进行分析,验证、解释每一步骤间产生的模式的关联关系。这一阶段的工作可以由机器自动完成,也可以与分析人员进行交互来完成,主要依据模式发现规模来确定。⑸信息整理:对经过模式分析得到的信息进行进一步挖掘整理,将其应用于Web商务中。1.2Web数据挖掘分类Web挖掘技术研究至今,已有一些不同的方法,一般根据对Web数据的感兴趣程度不同,可将Web数据挖掘分为Web内容挖掘、Web结构挖掘、Web用法挖掘三类。⑴Web内容挖掘:Web内容挖掘指从Web内容中发现有用信息[2

5、]。Web上的信息由各种类型的数据源组成,包括WWW、FTP、Telnet等,比如数字图书馆、政府信息服务、电子商务数据,以及其他可以通过Web访问的数据库。⑵Web结构挖掘:从广义上讲,Web的结构包含三个内容:一是不同网页间的超链接;二是网页内部的网络地址字符串中的目录路径结构信息;三是网页内部内容可以用HTML、XML表示成的树形结构信息[3]。⑶Web用法挖掘:即Web使用纪录挖掘技术[4],在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志纪录,来发现用户访问Web页面的模式;通过分析日志纪录中的规律,可以识别用户的喜好与满意度,这些分析数据可以帮助我们提高站点的服务质量

6、,同时发现未来潜在用户。82爬虫原理爬虫是一个用来分解Web中超文本结构的工具,而网络爬虫则可以认为是一个自动提取网页的程序,它为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分。一个商业网站的Web页面是以超链接的关系存在的,这就组成了类似一张张的网。网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,同时找到在网页中的其他链接地址,通过这些链接地址寻找下一个网页,这样一直循环下去,最终把这个网站所有的网页都抓取完为止[5]。假设把整个互联网当成一张网,那么网络爬虫就可以用这个原理在这张网上把互联网上所有的网页信息都抓取下来。具体可按如下步骤。S

7、tep1:从一个或若干初始网页的网页地址开始,获得初始网页上的网页地址;Step2:不断从当前页面上抽取新的地址放入队列,直到满足系统的一定条件才停止。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的地址队列;Step3:根据一定的搜索策略从队列中选择下一步要抓取的网页地址;8Setp4:不断重复步骤2-3,直到达到系统的某个条件发出停止指令,不再往下访问;S

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。