欢迎来到天天文库
浏览记录
ID:39549430
大小:170.93 KB
页数:5页
时间:2019-07-06
《Bi分析系统设计大纲》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、一、项目背景首先,数据通过Bi分析系统清洗、聚合之后,能够形成用于运营分析的基础数据,导入数据仓库,为灵活和深入的分析运营情况提供基础。其次,Bi分析系统需要对于用户进行统计和分析,结合其他可获得的用户属性,如终端、地域、注册用户中输入的兴趣爱好等,聚类出典型的用户群特征,为新产品定义、用户体验优化、精准营销提供助力。同时Bi分析系统为基于知识学习的推荐引擎提供信息输入,不断提升推荐智能和质量。还有,Bi分析系统也能够对用户感兴趣的内容、服务,做出分析,尽快发掘内容热点,为向用户提供更优质的内容服
2、务。二、解决方案三、数据源本地文件系统原始日志构成了本系统的数据源,做为清理和转换的基础,下表展现了原始日志的类型。应用系统目录说明网页pagesearch网页搜索请求日志文件pageclick网页搜索用户点击日志文件 新闻newssearch新闻搜索日志newsclick新闻搜索用户点击日志 图片imagesearch图片搜索日志imageclick图片搜索用户点击日志日志具体格式如下表:字段说明TimeStamp搜索时间戳格式为YYYYMMDDHH24MISSnnn,后三位为毫秒内容Rem
3、oteIP远端的IP地址OriginateIP原始IP,适合通过代理访问的机器TransactionID搜索流水号Source来源,取值会根据业务发展不断扩展如:www、wap、clientContentType内容类型,取值会根据业务发展不断扩展,各业务取值会有不同。如:page、news、image、others、…Uid登陆后的用户id。如果没有登陆为空四、数据仓库在原始日志模型的基础中,利用ETL工具对各类日志进行转换、合并和清理,生成关系型数据库表。searchclickTimeStam
4、pTimeStampRemoteIpRemoteIpOriginateIPOriginateIPTransactionIDTransactionIDSourceSourceContentTypeContentTypeUidUidQuery在此基础上设计多维模型,以多维数据库方式存储以PV为例五、数据展现分析维度维度时间年->季度->月->周(取值为当年第几周)->日->时(仅对流量)按照增长、环比、同比方式分析数据地域国外
5、国内->国家名
6、省和直辖市->地市->区县目前基于IP段划分确定,未来可以
7、基于GPS位置进行更精确的分析终端类型PC
8、Pad
9、MobilePhone->厂商->终端型号基于UA分析,结合数据字典表实现客户端软件PC
10、Pad
11、MobilePhone->OS->浏览器
12、客户端->版本号基于UA分析,结合数据字典表实现运营商类型移动
13、联通
14、电信
15、吉通
16、卫通
17、其他
18、…通过IP段划分比对获得内容类型ContentType取值为Log中ContentType分类枚举值age
19、news
20、realtimes
21、music
22、image
23、video
24、nav
25、others按照产品类型进行统计时
26、间维度在指标统计过程中,主要采用的统计时间颗粒度为日,基本统计时间为本日、本周、本月、本季、本年、上年。地域目前基于IP段划分确定,统计颗粒度为国外
27、国内->国家名
28、省和直辖市->地市->区县。终端类型基于UA进行分析,获取日志数据中的终端类型,基本包括PC、Pad、MobilePhone等。获取终端的厂商以及终端型号。客户端软件基于UA进行分析,获取日志数据中的客户端软件,基本包括PC
29、Pad
30、MobilePhone->OS->浏览器
31、客户端->版本号。运营商类型通过IP段进行划分,大致包括移动
32、、联通、电信、吉通、卫通、其他……对比分析算法描述增长量说明两个同时期发展水平增减差额的指标。增长量=报告期水平-基期水平当报告期水平大于基期水平,即现象水平增长时,表现为正值:反之,现象水平下降时,表现为负值。由于所选基期的不同,增长量分为逐期增长量和累积增长量。逐期增长量是报告期水平减去前一期水平的差额,说明现象逐期增长的数量;累积增长量则是报告期水平与基期水平(一般是最初水平)相减的差额,说明一定时期内的总增长量;环比增长率是指本期与上期相比的增长的百分比;环比增长(下降)率(%)=[(本期
33、指标/上期指标)-1]*100%同比增长率一般是指与前段同期时间相比较的增长率。如上年、上月、上周本期同比增长(下降)率(%)=[(本期价格/上年同期价格)-1]*100%分析指标本期指标流量分析指标UniqueIP独立IP(24小时)时间粒度为:年、季度、月、周、日、时PV访问量 Click点击量 CTR转化率
此文档下载收益归作者所有