数模论文-博客信息挖掘

数模论文-博客信息挖掘

ID:44421746

大小:737.02 KB

页数:15页

时间:2019-10-21

数模论文-博客信息挖掘_第1页
数模论文-博客信息挖掘_第2页
数模论文-博客信息挖掘_第3页
数模论文-博客信息挖掘_第4页
数模论文-博客信息挖掘_第5页
资源描述:

《数模论文-博客信息挖掘》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、论文题目:B博客信息挖掘摘要:随着产blog的快速发展,对产品的推广宣传产生了有效的作用,现对某一年博客数据进行分析,从而预测出所发博客在基准时间未來24小时所收获的评论数。针对问题一:为研究博客发表后的跟帖和转载情况,根据训练数据表中所给属性,从表中列出可能与Z和关的因素,包扌舌200个常用单词,发表时间,源博客数量等因素,将该问题考虑为统计学中的多元回归问题,利用软件SPSS对其做因了变量分析。针对问题二:利用控制变最法的思想,将众多因素分别考虑为白变量,将廨客在基准时间未来24小时所获评论数作为因变量,然

2、后把对训练数据进行筛选,剔除一些不合理数据,比如聘客长度为0的数据,然后把剩余数据按因素分类累加,把具有相同因素的数据的因变量累加,使用SPSS进行聚类分析,然后以此为作出相应的图像,观察两者冇没冇关联。针对问题三:根据第二题的求解,在众多因素小剔除掉明显没有直接相关的因素。然后对剩余因素继续进行聚类分析求其相关系数,然后按照相关系数的人小进行排序。在第2问中通过初步的快捷方法得到的影响因素屮,再对这些因素做逐步回归分析,更为精确地查找。针对问题四:根据前三问的求解所初步判断出影响冃标变量的因素,综合这些因素,

3、利用线性回归和逐步回归的方法,使川阻止增长模型來刻画影响因素对冃标变量的关系,然后对应训练数据,对模型进行验证和修正,得出一个最符合的模型,然后利用该模型预测中2012年2月1口、15日、和29F1的数据中所发闿客在基准时间未來24小时所收获的评论数。关键词:附客因子变量聚类分析逐步回归控制变量微分方程法参赛编号(由组委会填写)一、问题重述博客,它的正式名称为网络FI志,是一种通常由个人管理、不定期张贴新的文章的网站。Blog是一个网页,通常由简短且经常更新的帖了(Post,作为动词,表示张贴的意思,作为名字,

4、指张贴的文章)构成,这些帖子一般是按照年份和日期倒序排列的。借助博客平台推广,需要设计一定精加工内容的帖子进行发表,引起众人的兴趣,并能够将待推广产品融入到所发帖子中。并且在后续的大众跟帖、转载过程小,需要不断跟进产品推广进程,从而更好的推动产品推广,以及总结经验,更好的对发帖进行改进。由此可见,一个帖了从发表开始,在特定时间段到底有多少人跟帖和转载并给与评论一直接反应了这个帖子的发表是否成功。这对于产品推广人和产品所有者来说都是至关重要的o附件给出了从博客网站提取的博客信息的调查数据,包含了发帖时间、帖子内容

5、的关键词、跟帖评论数量、转载数量等等若干信息。本数据来源于博客,是从原始的网页数据进行抓取编译所得。为了更好的研究博客数据信息,我们选择了一个过去的时间基准,该基准时间被设定为2010年和2011年之间。选择选定的基准日期/吋间之前最多72小时内所发表的博客帖子。检验数据的基准时间是在2012年的2月某几天。然后,我们计算所选择博客文章在基准时间所提供的所有的特征信息,因此每个实例对应于一个博客。训练数据(blogdata_train)中,所给数据包含了281个属性信息和6万条数据。数据以excel格式输出,其

6、中每一列代表一个属性信息,每一行代表一条博客信息。下面给出所有属性信息的具体内容,其中前面的数字表示表格中的第几列:现要求通过数学建模来完成以下任务:1、研究所给数据分析博客发表后的跟帖和转载情况,对所给的200个常用单词(口行用代码表示)和发表时间等因素,分析它们Z间的关联性和规律性,说明发表时间、常用内容单词等因素和跟帖与转载评论数之间是否相关,并给出理由?2、给出一种快捷方法初步确定对博客在基准时间未来24小时所获得的评论数量有影响的因素?3、根据第2问所确定的这些因素的影响度进行排序,并给出理由?在第2

7、问中通过初步的快捷方法得到的影响因索屮,是否有更精细的方法能够将重要的影响因索的范围缩小?如果可以,那么该如何做?4、根据所搜集的2010年和2011年的数据(blogdata_train),对所发博客在基准时间未来24小时所收获的评论数进行建模,给岀所建立的模型?利用所建立的模型对附件中2012年2月1日、15日、和29日的数据中所发博客在基准时间未來24小时所收获的评论数进行预测。二、模型假设1.对于博客发表后的跟帖和转载情况的影响因素之间是相互独立的2.博客长度为0等属于不符合实际情况的数据可以剔除三、符

8、号说明W:第i个博客所用200个常用单词的数量T:第i个博客的发表时间S:第个博客的源博客数C:第i个博客的评论总数P:第i个博客的转载数C:第i个博客的24小时内的评论数P:第i个博客的24小吋内的跟帖数C:第i个博客的48-24小时的评论数P:第i个1博客的48-24小时跟帖数L:第i个博客长度P:博客的跟帖数和转载评论数Z:目标变量,博客在基准吋间未来24小吋所收获的评论数四、问

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。