欢迎来到天天文库
浏览记录
ID:33526929
大小:1.73 MB
页数:46页
时间:2019-02-26
《分布式、可扩展的实时微博搜索技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、山东大学硕士学位论文4.4PerformanceofGlobalStorage⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..344.5PerformanceofQueryProcessing..⋯⋯.⋯⋯⋯⋯⋯⋯.⋯.⋯⋯⋯⋯.⋯..⋯..⋯.⋯⋯⋯.⋯36Chapter5ConclusionandFutureWork⋯⋯.⋯.⋯..⋯⋯.⋯.⋯...⋯⋯.⋯⋯⋯.⋯..⋯..⋯.⋯.391;.1Conclusion.......................................................................
2、.....................................:;95.2Future1lIl7:('rk..........................................................................................................40References............................................................................................................
3、..........4lAcknowledgment...........................................................................................................44PublishedTheses.⋯..⋯..⋯..⋯⋯⋯..⋯.⋯⋯.⋯⋯.⋯⋯⋯⋯.⋯.⋯⋯.⋯⋯⋯.⋯⋯⋯.⋯..⋯..⋯.⋯._}!;ResearchProjects⋯.⋯.⋯⋯⋯⋯⋯.⋯.....⋯.⋯⋯.⋯..⋯.⋯.⋯.⋯..⋯..⋯..⋯.⋯⋯.⋯⋯..⋯⋯.⋯..46山东大学硕士学位
4、论文摘要过去几年中我们见证了微博平台的迅猛发展,新浪微博、腾讯微博等已成为新的媒体形式。数量庞大的微博数据和其高度动态的本质,对搜索服务提出了独特的技术要求。特别是,搜索服务需要提供实时响应查询的服务,并随着新微博的发布不断地更新搜索结果。传统的技术方法无法适应高更新率提出的挑战,也不能很好地将系统扩展来应对和处理不断产生的大量数据。本文研究了一个分布式、可扩展的是实时微博搜索技术,并实现了一个系统来提供分布式实时索引并构建微博搜索服务。它的底层是基于业界领先分布式流处理技术与平台(如ApacheS4和TwitterStorm),这些流处理平台提供了强大的实时处理
5、能力。但是尽管这些流处理平台已经成功地应用在其它生产环境中,在微博实时搜索的任务和需求下,它们仍缺乏一些关键功能,特别是:(1)它们只实现了部分的容错能力,在节点发生故障的情况下,无法达到无损恢复;(2)它们没有一个全局数据存储设施,而这个全局存储对于有效的搜索结果排名却是至关重要的。为解决这些问题,本文中实现的系统扩展现有平台中的两个重要方面。首先,本文提出并实现了一个故障恢复策略,可以保证系统的高可用性及当发生故障时无数据丢失、无状态丢失。其次,系统扩展了一个全局的储存设施,提供了便捷、高效、可靠的数据存储共享数据支持。第三,本文还详细描述了如何使用实现的系统
6、构建分布式、可扩展的微博实时搜索服务。最后,本文通过在公开数据集上的大量的实验证明这个技术研究是实现是合理、有效的。关键词:微博;实时搜索;流数据处理;故障恢复;全局存储山东大学硕士学位论文ABSTRACTThelastfewyearshavewitnessedameteoricriseofmicrobloggingplatforms,suchasTwitterandTumblr.Thesheervolumeofthemicroblogdataanditshighlydynamicnaturepresentuniquetechnicalchallengesfort
7、heplatformsthatprovidesearchservices.Inparticular,thesearchservicemustprovidereal—timeresponsetoqueries,andcontinuouslyupdatetheresultsasnewmicroblogsareposted.Conventionalapproacheseithercannotkeepupwiththehighupdaterate,orcannotscalewelltohandlethelargevolumeofdata.WeproposePollux,a
8、syste
此文档下载收益归作者所有