11003301论文开题报告3稿

11003301论文开题报告3稿

ID:27867191

大小:78.00 KB

页数:8页

时间:2018-12-06

11003301论文开题报告3稿_第1页
11003301论文开题报告3稿_第2页
11003301论文开题报告3稿_第3页
11003301论文开题报告3稿_第4页
11003301论文开题报告3稿_第5页
资源描述:

《11003301论文开题报告3稿》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、-题  目学生姓名班级学号一、对指导教师下达的课题任务的学习与理解1.背景微博,即微型博客(MicroBlog)。2006年3月,twitter.com上线,标志着世界上第一家微博网站的诞生。它是web2.0时代新兴起的一种集成化、开放化的互联网社交服务,是一个基于用户关系的信息分享、传播以及获取平台。微博凭借其短小精悍、操作便捷、即时互动等特点,力压博客、BBS、IM成为新一代网络传播工具[1]。微博是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组件个人社区,以简短的文字更新信息,并实现即时分享。微

2、博客是一种沟通的媒介,允许用户通过短暂内容彼此连通[2]。关注是一种单向不需要对方确认的关系,只要是感兴趣的都可以实行关注,即时了解对方的动态。云计算是以虚拟化技术为基础、以Internet为计算载体,以服务计算为计算内容,通过IaaS,Paas和SaaS来表示云计算应用[3,4],以伸缩计算方法、云存储(数据高效利用方法)和负载均衡等为主要研究内容;从而为用户提供高性能的计算、海量数据实时处理、存储和集中式管理的新型分布式计算模式;其中,云存储是云计算中的核心研究领域之一。目前,通常采用开源软件Hadoop来实现云存储[5],通过Hbase

3、来实现云存储的载体[6]。2.课题分析本课题研究数据的存储与检索,用HBase作为后台数据库,利用NoSQL数据库特性完成微博数据库结构的设计,以Hadoop和Eclipse为开发平台,Java开发,通过HBaseAPI开发实现完成微博网站的设计与实现和对微博数据存储和数据检索的管理。然后以浏览器/服务器模式(B/S模式),为用户提供动态交互式页面操作平台,使得用户和管理人员可以执行对微博数据的添加、删除、修改、关键字查找等基本操作。HBase是以Hadoop为基础,通过Hadoop来实现云数据的处理和管理的。即将多列的一张表分割成regio

4、n子表,并由一个master后交由多DataNode组成的云计算集群环境来实现处理和管理,其整个过程中由HDFS和MapReduce来完成存储、处理和管理[7,8]。.---数据信息有结构化的数据、半结构化数据和非结构化数据三种。结构化数据,简单来说就是数据库,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等,基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。非结构化数据,包括视频、音频、图片、图像、文档、文本等形式,具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GI

5、S、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。半结构化数据,包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等,这些应用对于数据存储、数据备份、数据共享以及数据归档等基本存储需求。微博数据中不仅仅只是结构化数据还存在非结构化数据。网站基本功能包括:当用户处于游客状态下能看到微博注册页面没有其他的功能权限;注册用户可使用微博交互功能,如发表微博、删除自己发表的微博、评论微博、转发微博、收藏微博、解除收藏、加关注

6、、解除关注、点赞、解除点赞、对微博用户的查询、屏蔽指定人微博以及关键字检索相关微博的功能;注册用户还可以使用微博的个性化设置功能,对基本信息(头像、昵称等)、账号和密码进行设置;后台管理员可以对微博用户的相关信息进行查询、对微博信息进行查询并可以删除非法的微博信息。一、阅读文献资料进行调研的综述1.关键技术分析与实现(1)推-拉模式改进微博网站应用到了feed(每条微博我们称作feed)系统,也就是推-拉(push,pull)模式[9,10]。推模式需要把一条微博推送给所有关注他的人(粉丝)。一个大量用户的微博系统通过推模式,会产生非常惊人的

7、数据。拉模式是用户发表微博时,存储一条微博数据到feeds表中,用户每次查询数据时都会去查询feeds表。利用Hbase数据库特有的时间戳特点对数据按照时间戳进行划分,存入不同的feeds表,然后进行处理。时间戳是用来区分同一份数据的版本,并且按顺序排序,每次查询都将返回最新版本的数据,用它作为标准可以满足网站的需求。基于时间戳的推模式具体工作过程如下:用户登录微博系统发布信息,他发布的内容首先推送到存储最新数据的feeds表中,在一定时间之后,存入存储较长时间数据的feeds表,并删除其在前一个feeds表中数据,依次类推。基于时间戳的拉模

8、式具体工作过程如下:用户登录微博首页时,首先查询缓存中的数据如果缓存中没有数据,那么可以查询比较长时期的feeds表,然后进入缓存。下一次查询,通过查询缓存中数据的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。