一种基于网络爬虫技术的价格指数计算模型.pdf

一种基于网络爬虫技术的价格指数计算模型.pdf

ID:52886022

大小:466.31 KB

页数:7页

时间:2020-03-31

一种基于网络爬虫技术的价格指数计算模型.pdf_第1页
一种基于网络爬虫技术的价格指数计算模型.pdf_第2页
一种基于网络爬虫技术的价格指数计算模型.pdf_第3页
一种基于网络爬虫技术的价格指数计算模型.pdf_第4页
一种基于网络爬虫技术的价格指数计算模型.pdf_第5页
资源描述:

《一种基于网络爬虫技术的价格指数计算模型.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第3l卷第l0期统计研究V01.31.No.102014年10月StatisticalResearchoct.2014一种基于网络爬虫技术的价格指数计算模型孙易冰赵子东刘洪波内容提要:本文参照官方CPI的制度方法,设计了一种基于网络爬虫技术的价格指数计算模型。通过模型试算值与官方数据的比较,以及对原始数据的特征挖掘,发现该种模型具有时效性强和灵敏度高的特点。关键词:价格指数;网络爬虫;聚类分析;幂律分布中图分类号:C813文献标识码:A文章编号:1002—4565(2014)10—0074—07AModelofCompilingPriceIndexBasedonthe“WebScrapin

2、g”TechnologySunYibingZhaoZidongLiuHongboAbstract:Inrecentyears,somedomesticandforeigninstitutionshavebeenconductingresearchonusingbigdataincompilingonlinepriceindexes.Thispaperdesignsamodelofcompilingpriceindexbasedonthe‘webscraping’technologybyreferringtotheofficialCPImethodology.Bycomparingresul

3、tsofthismodelwithofficialCPIdata,andanalyzingcharacteristicsofrawdata,wefindoutthatthemodelhastheadvantagesofstrongtimelinessandhighsensitivity.Keywords:PriceIndex;Webscraping;ClusterAnalysis;Power—LawDistribution分析了数据特征;第五部分设计了一种基本分类商一、问题的提出品的日度价格指数计算模型,进行了实证分析并与近年来大数据技术已经深刻影响着统计工作,官方数据比较;第六部分为结论

4、。统计部门只有积极应用大数据技术,才能更好地为二、CPI指数和几种网络价格指数有关部门决策提供依据。其中,价格统计部门当前的比较的首要任务就是处理好网络购物等经济生活中的新动态,并利用大数据技术完善价格指数编制工作。从一般意义来说,价格指数是指两个不同时期国外官方统计部门通常认为网络零售商是价格价格水平变动的相对数,即报告期价格水平与基期调查点并纳入居民消费价格指数(以下简称CPI)调价格水平变动的比例关系。通过建立时间序列,用查中。其中,美国CPI调查统计中9%的原始数据来分析研究一个较长时期相关商品或者生产要素价是通过互联网采集的。学术界和网络零售商则基于格与供求关系变化的规律,同时还

5、可以用来预测未不同考虑,针对各自获取数据的特点,设计出不同的来一个时期市场发展变化的趋势。价格指数中影响网络价格指数。最大的就是CPI。本文通过分析网络爬虫获取的数据,在传统(一)消费者价格指数(CPI)CPI基本分类商品指数计算模型基础上,设计了一根据2003年国际劳工组织理事会第十七届国种基于网络爬虫技术的日度价格指数计算模型,并际统计学家大会上的定义,CPI用来衡量家庭为消进行了数据实证。本文后续安排如下:第二部分介费目的所获取、使用或支付的商品和服务的总体价绍并比较了三种实际应用中的价格指数;第三部分格水平的变化,其目的是衡量消费价格随时间而发给出了基于爬虫技术的价格指数编制模型,

6、并初步生的变动情况。分析了数据特征;第四部分从工程角度利用K—编制CPI指数的流程是先编制基本分类商品means聚类算法处理海量数据中的异常值,并深入(例如大米、手机等商品)的价格指数,在此基础上第3l卷第10期孙易冰等:一种基于网络爬虫技术的价格指数计算模型·75·按照权数资料进行逐层汇总,生成各分类指数和三、基于网络爬虫技术的价格指数CPI总指数。包括我国在内的国内外官方统计机构计算系统架构及实践普遍采用拉氏公式进行指数汇总。(二)网络价格指数(一)基于网络爬虫技术的价格指数计算系统近年来,网络销售和大数据技术的兴起,国外学架构术界和网络零售商也开始从事网络价格指数编制工网络爬虫技术已

7、经在Google、百度为代表的网作。总体上,这些机构在编制过程中均以CPI编制络搜索业中有了广泛应用。网络爬虫从指定的网页方法为基础,结合自身数据特征设计出不同的网络出发,通过分析网页内的标记结构,获取指向其他页价格指数。面的超级链接,然后通过既定的搜索策略选择下一2008年,阿里巴巴公司推出网购核心商品价格个要访问的站点。理论上,如果指定适当的初始页指数(aSPI.core),数据基于淘宝网、天猫网、支付宝面集和网络搜

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。