《手机上网用户行为分析系统》结题汇报

《手机上网用户行为分析系统》结题汇报

ID:43293276

大小:3.96 MB

页数:29页

时间:2019-10-08

《手机上网用户行为分析系统》结题汇报_第1页
《手机上网用户行为分析系统》结题汇报_第2页
《手机上网用户行为分析系统》结题汇报_第3页
《手机上网用户行为分析系统》结题汇报_第4页
《手机上网用户行为分析系统》结题汇报_第5页
资源描述:

《《手机上网用户行为分析系统》结题汇报》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中国移动集团级重点研发项目结题汇报报告7/23/2021项目名称:手机上网用户行为分析系统一.课题目标实现情况目录二、主要研究成果(整合后)研究背景“十一五”期间,我国网民规模跃居全球第一,宽带普及率接近100%,手机网民规模迅速发展,互联网应用更加深入,推动着社会进步和人们生活方式的变革。随着移动互联网近几年快速的发展,作为移动互联网关键环节的中国移动正在感受这个浪潮带来的冲击。约合485..5亿兆2009年约合1030.9亿兆2010年上网流量同比上升112.3%204.4亿元2009年305.3亿元2010年流量收入同比上升49.4%高速发展的流量并没有带来相关收

2、入的同步增长研究背景在以用户为中心的发展时代下,了解用户需求成为我们面对课题的第一步工作,这就需要我们对我们网络中的流量有深入的了解,掌握我们用户的行为情况,便于我们针对性的调整运营战略,在正在到来的移动互联网大潮中未雨绸缪,迎接即将到来的挑战。针对用户的需求分析作为中国移动具有先天的优势,海量的CMWAP、CMNET的日志信息蕴含着巨大的财富,通过用户移动互联网行为分析,一方面让我们更了解我们的用户,实现个性化需求的识别。同时在有限的资源情况下及时的为用户提供个性化的产品生产、个性化的匹配/分发。通过针对用户上网行为的分析实现个性化需求的识别,成为数据部迫不及待需要解

3、决的问题;同时在流量经营和精细化的营销方面具有非常重要的战略意义。研究目标建立一套完善的手机上网用户行为分析系统,通过对用户手机上网访问行为进行分析,获取用户的访问轨迹、浏览页面内容、网站信息、浏览客户端信息、移动终端信息等,进行各类分析,形成各类用户模型。网络爬虫GPRS网站内容分析用户行为分析数据分析爬虫数据网站树内容树数据清洗WAP黄页库数据分析网关数据数据清洗用户行为模型数据索引用户属性内容属性结果呈现5个应用细分营销活动精确发展用户引导自有业务分析竞争业务个性化内容日志采集研究目标研究一种适应分类体系变化的海量网页快速分类系统,要求如下:实现一个快速爬取手机用

4、户访问日志的方法,需要深入到用户访问页面的标题、正文信息以及相关网页链接。针对手机互联网,提出一种正文提取的方法。基于分块的基础上,提取每个信息块的信息量,并计算各个分块和网页title的相似度,最终确定正文块。基于主题的多分类方法。文本不被看作仅仅是由一些特征词所组成的,而是被看作是由一些主题构成的,主题是由一些特征词构成的。通过样本中不同类别的主题分布,实现预测出一个新的文本到底属于什么类别。研究总体框架手机上网用户行为分析项目研究的总体架构如下:多数据海量数据预处理海量数据存储和计算“客户-内容”特征类标签分层可扩充体系“客户-内容-业务”三维匹配矩阵前台应用管理

5、模块研究总体框架系统海量数据存储和计算功能是整个系统的核心功能实现模块,根据功能的层次结构可以进一步细分为以下层次:数据采集和接口层:它负责从不同类型的网络中的接入和采集数据。针对网络自身的特性以及系统建设的实际情况,数据的采集可以是从硬件设备(如网关、Gn口、分光设备)直接获取并解析,也可以是从其它系统(如BOSS和VGOP)导入。数据清理和融合层:它负责对采集的数据进行清洗,归一化后存入海量数据存储设备。为了更深层次分析用户行为,它还负责网页收集和爬取、网页分类、应用协议分析,以及用户属性的获取等功能。网络统计和用户行为分析层:它负责系统的核心应用功能实现,分为手机

6、和有线网络流量统计分析、用户个体和群体行为分析、以及游戏、音乐等应用业务专题分析等。分析结果展示层:它负责向读取网络统计和用户行为分析层产生的结果,并向用户展示在浏览其中。难点及解决方案项目的难点:本课题首先是获取不同类型网页的正文内容,然后利用数据挖掘来分析用户的喜好,其主要的困难如下:数据大规模性网页类型多样性分类要求的高效性多分类性分类体系的变化性“客户-内容-业务”三维矩阵模型的构建用户数据的零散性垃圾数据的清理用户数据业务偏好的识别项目的难点及解决方案相关解决方案:系统架构采用云存储和云计算的方式,有良好的扩展性;建立适应性分类体系变化的海量网页快速分类体系和

7、系统基于主题的分类方法正是为解决这些问题应运而生。它基于PLSA模型,计算出文本的主题分布,再根据贝叶斯分类来预测文本所属的类别。由于PLSA模型在训练的时候比较耗时,但在训练过之后,计算文本的主题分布的时间是线性的,所以在实际应用中,计算文本的主题分布并不是很耗时。另外,基于主题贝叶斯分类消耗的时间也是有限的,因为主题数通常都在1000以下,相比于特征词来说,维度已经降低了很多,所以时间花费也比较少。基于主题的分类方法以PLSA的模型的理论基础,通过抽象出一个虚拟的主题层,通过文档和关键词之间的共生关系,来求解主题和各文档的关系及主题和

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。