资源描述:
《大数据下基于信息流的手机短信种子用户快速识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、..’、三'v非’-':.章.>哉'.:扣户;:V:v/方一r發v.帮汝1赛、冷泰’一-./‘.'一^.一-.;、、’^^讲.‘-遍钱,;V.一’:^f'',:;;^^^?.*々■.一■?.'.,wt、''i今* ̄、1心、―'、.心‘一….、、:心一-;::.^?;V^:;苗,、:^^S.诗占''-一■:?分魂号:0215乃弁诗単位代码;10636■?:;r1^3一-心'和、;产i公开;学号0804003\密紐:撕。\巧.’一’*、巧:2^.
2、.:4坏始榮f編%.)與證為式■-.''、—?、'■'户-■.*A:^*[、片:、s<..,.…...;齡'誦.;’顺±学位论文攝扉—';。.—.''‘寻.’;托、.S::节為i靖5兴:;—"^着冉??1韻誉.若峡帮-,;■??一、-’-、、、、-、-乂?.,-、^?VL-占..-.-——.'心:..、'...;學.人,沁一霉去支论文题目;大数据下基于倦息流的孚机短信种户;^'聲..:t:,无規度fe速强别J寶;^英文论文
3、题目:BasedanInformationflowSMSseed妾若寅:妾巧.备..足-.托'':、-—-I/产Jusersukklvfatentifyunderbigdata公g京托^.,..'’.:..论文作者:苗'.仁__ji&a^__::P^繁巧奪簿葉ik.巧%濤巧灑:政皆V占r>:指导教师赵凌‘、—业专产专名称:概率论与教理统i十.;;章..寒共著J專^.的究方向:应用统计苗勺j::^攝黎研*",、.>-、?-*,一、.'^^.古?
4、?、、..'、、t__,^:咕一>;?.:;.所在学院;V爲海数学与软件科学焼玄章為谭璋—'’?一.’二-?论文擬交曰觀^U年3月呂.;;?宴女苗度赛.:S義.-.■■■■,?...?、-一、<‘、一^一一"——"—I--?-,■—■■一1一.:-■^x:一一‘y■?‘I一..VV。滅-导,驗:為;巧.--.‘';-...:,心,货■諭掉古,;烤必'. ̄>:;马多這K、'■’■.--.、..'■''..:':;;:-■.':
5、'-vVVv一-?户.:(.::,,,4诗嗔V占芦._\■■-'■--'>::::.:S^.■^-.-.^^■V'.-纖知'■,.-'w'-.'。?节占';游-舍,,一,,.,,.'一.心;X‘巧奸.大数据下基于信息流的手机短信种子用户快速识别专业概率与数理统计研究生谢杨晓洁指导教师赵凌摘要对于信息种子用户的识别在通讯发达的今天具有较为重要的意义,在某些关键的时刻这些种子用户可以发挥很大的作用.将大数据的处理思维应用到种子用户的识别中,与传统方法相比能更快更好地得到结果
6、.本文开篇介绍了电信业务以及短信种子用户的相关背景,大数据的定义,大数据的各种特征以及应用价值.接着介绍了关于密度聚类方式和关于递归搜寻方式的树形网络结构用来识别种子用户,然后做了实证分析.由于关于密度聚类算法和关于递归搜索算法的树形网络处理时间太长并且在数据量达到大数据的标准时已经无法处理,所以在第四章是在对如何构建树状模型进行的改进和提升,先分析了影响用户成为种子用户的两大因素:时间优先和属性特征,以及种子信息传播的两大特征:传播时差和方向性.因此,本文针对上述两点提出了一种可以迅速创建树形网络结构,并快速地寻找出种
7、子用户的方法.首先,应对数据进行清洗和数据处理,大数据的处理和清洗的典型方法有,基于函数依赖及蕰含依赖的方法,基于用户自定义约束条件的方法,基于统计学习的方法和基于因果关系的方法.针对种子用户本文选择了较为灵活的基于用户自定义约束条件的方法来对数据进行即先将用户按属性特征,也就是按照行业属性将其分到不同的组中,通过分析计算所有组之间的短信流通关系和传播时差来整理出信息流动的方向,即方向性.从而逐步缩小了搜索范围,也就是只看处于源头位置的组,再通过阀值筛出选备选的种子用户,然后验证备选种子用户,设计合理的种子用户的评价体系
8、,即树状评价模型,将备选种子用户代入评价模型算出的最后得分确定出种子用户.最后,通过两个模型的对比,可以得到改进后的基于信息流模型优于树形网络模型.关键词:大数据种子用户信息流信息流浓度树状评价模型4BasedonInformationFlowSMSSeedUsersQuicklyIdentifyUnderBigDa