基于R语言爬取电商数据的价格销售分析

ID：37585548

大小：667.98 KB

页数：26页

时间：2019-05-25

资源描述：

《基于R语言爬取电商数据的价格销售分析》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、目录1绪论21.1研究背景及意义21.2国内外研究现状21.3本文研究内容32相关技术简介42.1网络爬虫定义42.2R语言简介42.3Scrapy框架52.4数据挖掘技术介绍52.4.1日志挖掘52.4.2数据挖掘分析的过程62.5Heritrix简介73系统分析83.1系统可行性分析83.2功能需求分析83.3系统流程分析93.4性能需求94系统设计114.1　网络爬虫的模型分析114.2　网络爬虫的搜索策略114.3　网络爬虫的主题相关度判断124.4网络爬虫设计144.5功能实现155总结与展望21参考文献22致谢231绪论1.1研究背景及意义随着网络的发展，越来越多的资源出现在

2、人们面前，这时候人们就需要一种查询这些资源的方法，一种可以方便快捷获取自己想要的东西的方法。这时候搜索引擎这种搜索工具就出现了。网站拥有了较多内容后，首先考虑基于目录的内容分类，以解决信息快速定位的问题，随着内容量的进一步增加，很多内容在发表之后就很快被湮没，成为“信息孤岛”，而不断加深的目录结构也会让用户逐渐失去耐心。这时，搜索引擎的优势就体现出来了：可以让处于“信息孤岛”状态的内容以一种更直接的方法提供给用户；和基于目录/分类的树形结构不同，基于关键词检索还可以让内容之间实现网状的关联结构，已经出现了许多类似的搜索引擎。针对搜索引擎广阔的应用前景以及分析国内外搜索引擎的发展现状，根据

3、全文检索系统的工作原理设计一种基于Internet的全文搜索引擎模型，它可以从互联网上获取网页，建立索引数据库，并采用数据库管理作业和多线程技术以提高全文搜索的性能和效率，从技术上可以适用于任何有搜索需求的应用。1.2国内外研究现状网络爬虫，又称为Robots或Spiders，几乎与网络同时出现。第一个网络爬虫是MatthewGray的Wanderer，在头两届国际万维网会议上出现过数篇关于网络爬虫的论文。但是那时候互联网上的信息规模比现在要小得多，那些文章中并没有阐述如何处理现在所面临的海量网络信息的技术。每个搜索引擎的后台，都有相应的网络爬虫在工作着。但是出于互相竞争的原因，这些网络

4、爬虫的设计并没有公开，除了以下3个：GoogleCrawler，InternetArchiveCrawler以及Mercator。1990年，万维网还没有诞生，但是人们已经开始频繁的使用网络来传输文件了，由于大量的文件分布在不同的终端上，如果对每个终端逐一的进行访问既费时又费力，于是蒙特利尔大学的学生AlanEmtage、BillWheelan和PeterDeutsch开发了一个可以用文件名查找文件的系统，也就是Archie。它存储了一个FTP文件名列表，当用户输入文件名进行搜索时，它会告诉用户该文件是放在哪个FTP主机中，用户就可以直接访问这个主机获取文件。深受Archie系统的启发，

5、1993年美国内华达SystemComputingServices大学开发出了一个已经可以检索网页的搜索工具。同年，麻省理工学院（MIT）的学生马休•格雷（MatthewGray）开发出了第一个webrobot网络机器人程序，这个程序被命名为WorldWideWebWanderer。虽然当时这个程序并不是以做搜索引擎为目的而编写的，但是它却促进了后来搜索引擎的发展。网络机器人程序（Robot）也叫网页蜘蛛（Spider）或网络爬虫（Crawler）。它是搜索引擎系统中负责抓取网页的文本信息、图片信息和其它信息的功能模块。它利用HTML文档中包含的指向其它页面或文件的链接信息，在分析完一个

6、页面后转到其它链接继续分析，把分析出来的结果存入数据库。WorldwideWebWanderer刚开始只用来计算互联网的发展规模，后来也发展成为能够抓取URL的系统。1.3本文研究内容本文主要分为五个章节，第一部分为前言，主要介绍了课题背景、研究意义、国内外研究现状等内容。第二部分是相关技术的介绍，主要介绍了网络爬虫、R语言、Lucene等。第三部分为系统分析，主要介绍了可行性分析功能需求分析等。第四部分是系统设计，系统架构设计和功能设计是主要的设计内容。第五部分是总结，主要对全文进行了总结。2相关技术简介2.1网络爬虫定义定义1：网络爬虫是一个自动提取网页的程序，它为搜索引擎从Web上

7、下载网页，是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL列表；在抓取网页的过程中，不断从当前页面上抽取新的URL放入待爬行队列，直到满足系统的停止条件。定义2：主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接，保留主题相关的链接并将其放入待抓取的URL队列中；然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。所有被

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 26



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于R语言爬取电商数据的价格销售分析

基于R语言爬取电商数据的价格销售分析

相关文章

相关标签