主成份分析方法在大型网络电视数据挖掘中的应用研究

主成份分析方法在大型网络电视数据挖掘中的应用研究

ID:34382445

大小:1.06 MB

页数:3页

时间:2019-03-05

主成份分析方法在大型网络电视数据挖掘中的应用研究_第1页
主成份分析方法在大型网络电视数据挖掘中的应用研究_第2页
主成份分析方法在大型网络电视数据挖掘中的应用研究_第3页
资源描述:

《主成份分析方法在大型网络电视数据挖掘中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中国科技信息2010年第22期CHINASCIENCEANDTECHNOLOGYINFORMATIONNov.2010DOI:10.3969/j.issn.1001—8972.2010.22.037主成份分析方法在大型网络电视数据挖掘中的应用研究蔡春杜万莉陈德鑫北京联合大学应用文理学院计算科学系100197精i毳喽-

2、-.j_。黧罄。誓强叠建立数学模型具有很强的现实指导意义。为此本文采用主成份针对网络电视大型数据进行整理得到25数量特征属性:包月价分析方法(PCA,PrincipleComponentAnalysis)挖掘

3、网格、点播流量、直播流量等。基于大型数量特征,用主成份分络电视包月价格收取的特征以及建立其网络电视包月价格摸析统计方法建立网络电视包月价格模型;用软件SAS实现大型网型。络电视数据模型的计算得到了四组主成分;以四组主成分为变一、主成份分析法原理在对事物进行实证研究中,往往需要许多不同指标米评定一个事物,这些指标称为变量。㈠份分析法的思想就是,[1l隧J减少这些变量,试图用最少的变量去更加详细的描述和解释原来的事物,起到降维的目的。假设有,?个样品,对每个样品观测P个指标(变幂),分别用,x-·.表示,得到原始的数据资料矩阵

4、:XiIX12’IX22”X=●●●:::ljc2’’-.主成份分析就是要把这P个指标的问题,转变为讨论P个指标的线性组合问题,而这些新的指标,,⋯(七P),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。。这种由讨论多个指标降为少网络电视又称IPTV(InteractivePersonalityTV),它数几个综合指标的过程往数学卜就Ⅱq做降维。主成分分析的做将电视机、个人电脑及手持设备作为显示终端,通过机顶盒或计算机接入宽带网络,实现数字电视、时移电视、互动电视法是,对作正交变换,寻求原指标的线性组合。等服

5、务,网络电视的出现给人fi’1带来了一种全新的电视观看方法,它改变了以往被动的电视观看模式,实现了电视以网络为2=Ut/I12IXlI:+lt,2::1X2::+■⋯+“pI1XlI'(⋯1.2)基础按需观看、随看随停的便捷方式。网络电视的收看已成为目前年轻人获得新闻、娱乐、生活等主要方式之一,随之需FPt.PxI+Itpxl+⋯+ttxr求的旺盛网络电视逐渐成为商家的重要盈利渠道。网络电视提供的节目都是收取节目信息费,节目信息费通常以月计价称包将综合变量,,⋯按}i《{凡刊小的顺序分别祢为原月价格,其网络电视包月价格自然

6、成为网络电视提供方主要的关注问题。而影响网络电视包月价格特征有:节目类型、节始变量的第一个主成份,第二个主成份,⋯⋯.第P个主成目播放时间、节目流量、节目平均时长、节目下载次数、网份。其中各综合变量在总方差中所占的比重依次递减,在实际络畅通情况、节目价格、新增节目数等数量属性特征。网络研究工作中,通常是挑选前几个方差最大的主成分电视用户众多,需求量大,数据真实可靠且具有多项非数量属性特征。针对影响网络电视包月价格收取的特征进行挖掘以及,,⋯(七≤P),达到化简问题的目的。llj锄∞“”_1~“×00000u0803瓣鼎黜臻

7、蹁勰点⋯i¨00{n_;n0l¨;}0n、0m∞∞甜%¨"∞∞蚪"∞∞∞∞¨∞瓣_I060600060000n0}000O瓣‰鬣008800l00e0e00_nlIO00二、主成份分析法在网络电视数据挖掘中的应用犁数据。本文采用SAS软件进行计算瓣其步骤13一滔船嚣蹦黯耨螺本文收集到网络电视数据宽度从2005年7月至2009年101、导人数据:Solvency。j;;l__Injj日撩臻;;;7}^‘1L{4j0S00BB8303‘月,样本数目大小为8445个,涉及的数据个数为8445x25。影2、启动SAS,选择“解决方

8、案一+分析一交互式i数;据{分5析j”i;3j响大型网络电视节目收费的因素25个:(1)包月价格、(2)总内容数、命令,在弹出的对话框中选择逻辑库WORK,M选n择数n据n集nnnmn}踮;3躲Ri;船2;i)、SOLVENCY。(3)总流量(M)、(4)点播流量、(5)直播流量、(6)下载流量、(7)直播总次数、(8)直播总时长、(9)直播成功率、(10)直播平均时长、(11)点播3、选择“分析一多元囊”命∽令,簿打簿开壤“多元”对话端框。端总次数、(12)点播总时长、(13)点播成功率、(14)点播平均时长、(15)4

9、、将做主成分分析的变量lDX24选为Y变量0,00将000N0OA00M00Ed0000O0O_r_00下载总次数、(16)下载成功率、(17)用户主动终止率、(18)网络原因选为标签变量。计算变量的均舞值澎、标准偏差等,计算结果见图镞积率、(19)信息费总金额、(20)包月信扈费总金额、(21)按次信

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。