基于R语言爬取电商数据的价格销售分析

基于R语言爬取电商数据的价格销售分析

ID:37585548

大小:667.98 KB

页数:26页

时间:2019-05-25

基于R语言爬取电商数据的价格销售分析_第1页
基于R语言爬取电商数据的价格销售分析_第2页
基于R语言爬取电商数据的价格销售分析_第3页
基于R语言爬取电商数据的价格销售分析_第4页
基于R语言爬取电商数据的价格销售分析_第5页
资源描述:

《基于R语言爬取电商数据的价格销售分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、目录1绪论21.1研究背景及意义21.2国内外研究现状21.3本文研究内容32相关技术简介42.1网络爬虫定义42.2R语言简介42.3Scrapy框架52.4数据挖掘技术介绍52.4.1日志挖掘52.4.2数据挖掘分析的过程62.5Heritrix简介73系统分析83.1系统可行性分析83.2功能需求分析83.3系统流程分析93.4性能需求94系统设计114.1 网络爬虫的模型分析114.2 网络爬虫的搜索策略114.3 网络爬虫的主题相关度判断124.4网络爬虫设计144.5功能实现155总结与展望21参考文献22致谢231绪论1.1研究背景及意义随着网络的发展,越来越多的资源出现在

2、人们面前,这时候人们就需要一种查询这些资源的方法,一种可以方便快捷获取自己想要的东西的方法。这时候搜索引擎这种搜索工具就出现了。网站拥有了较多内容后,首先考虑基于目录的内容分类,以解决信息快速定位的问题,随着内容量的进一步增加,很多内容在发表之后就很快被湮没,成为“信息孤岛”,而不断加深的目录结构也会让用户逐渐失去耐心。这时,搜索引擎的优势就体现出来了:可以让处于“信息孤岛”状态的内容以一种更直接的方法提供给用户;和基于目录/分类的树形结构不同,基于关键词检索还可以让内容之间实现网状的关联结构,已经出现了许多类似的搜索引擎。针对搜索引擎广阔的应用前景以及分析国内外搜索引擎的发展现状,根据

3、全文检索系统的工作原理设计一种基于Internet的全文搜索引擎模型,它可以从互联网上获取网页,建立索引数据库,并采用数据库管理作业和多线程技术以提高全文搜索的性能和效率,从技术上可以适用于任何有搜索需求的应用。1.2国内外研究现状网络爬虫,又称为Robots或Spiders,几乎与网络同时出现。第一个网络爬虫是MatthewGray的Wanderer,在头两届国际万维网会议上出现过数篇关于网络爬虫的论文。但是那时候互联网上的信息规模比现在要小得多,那些文章中并没有阐述如何处理现在所面临的海量网络信息的技术。每个搜索引擎的后台,都有相应的网络爬虫在工作着。但是出于互相竞争的原因,这些网络

4、爬虫的设计并没有公开,除了以下3个:GoogleCrawler,InternetArchiveCrawler以及Mercator。1990年,万维网还没有诞生,但是人们已经开始频繁的使用网络来传输文件了,由于大量的文件分布在不同的终端上,如果对每个终端逐一的进行访问既费时又费力,于是蒙特利尔大学的学生AlanEmtage、BillWheelan和PeterDeutsch开发了一个可以用文件名查找文件的系统,也就是Archie。它存储了一个FTP文件名列表,当用户输入文件名进行搜索时,它会告诉用户该文件是放在哪个FTP主机中,用户就可以直接访问这个主机获取文件。深受Archie系统的启发,

5、1993年美国内华达SystemComputingServices大学开发出了一个已经可以检索网页的搜索工具。同年,麻省理工学院(MIT)的学生马休•格雷(MatthewGray)开发出了第一个webrobot网络机器人程序,这个程序被命名为WorldWideWebWanderer。虽然当时这个程序并不是以做搜索引擎为目的而编写的,但是它却促进了后来搜索引擎的发展。网络机器人程序(Robot)也叫网页蜘蛛(Spider)或网络爬虫(Crawler)。它是搜索引擎系统中负责抓取网页的文本信息、图片信息和其它信息的功能模块。它利用HTML文档中包含的指向其它页面或文件的链接信息,在分析完一个

6、页面后转到其它链接继续分析,把分析出来的结果存入数据库。WorldwideWebWanderer刚开始只用来计算互联网的发展规模,后来也发展成为能够抓取URL的系统。1.3本文研究内容本文主要分为五个章节,第一部分为前言,主要介绍了课题背景、研究意义、国内外研究现状等内容。第二部分是相关技术的介绍,主要介绍了网络爬虫、R语言、Lucene等。第三部分为系统分析,主要介绍了可行性分析功能需求分析等。第四部分是系统设计,系统架构设计和功能设计是主要的设计内容。第五部分是总结,主要对全文进行了总结。2相关技术简介2.1网络爬虫定义定义1:网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上

7、下载网页,是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件。   定义2:主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。所有被

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。