欢迎来到天天文库
浏览记录
ID:43876580
大小:439.97 KB
页数:30页
时间:2019-10-16
《搜狗大数据平台建设》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、nJllni"in缈SUSnoihiwniavHoisi39HV11muos唐盘腭mV亚uu詈常*SISA1VNV二暹in州期邺冃岂
2、Q卞闆□堀誌呂勰星制叫帥郦严眾十w盏g嚐丄彈尹呻t^i密餌企郢漆¥删1.前言32.搜狗大数据业务概况43.搜狗基础运维平台简介81.搜狗大数据产品化实践161.刖言如果大家遇到大数据的问题,如何进一步找到自己的价值,如何探索适合自己的中型或者小型公司数据团队在其管理方向的思考和探索。我做过很多项目,负责过搜索、运维、云平台、大数据,见证搜狗的成长过程,目前在做大数据基础平台建设和数据管理应用方向。本文分为三部分:•第一,搜狗大数据业务概
3、况,做个基本的介绍。无论是运维平台还是大数据平台,对公司来说都是支撑平台,没有好与坏,只有适合与不适合。•第二,搜狗基础运维平台简介。分享跟大数据系统相关的组件和模块。•第三,搜狗大数据产品化实践。我们在大数据系统从工具到产品的探索和思路,更多的是产品介绍、思路及我们的理念。©GOPS2018ShenzhenI搜狗穴数掘勰況搜狗是一家典型的大数据公司l大规模搜索引擎是典型的大数据系统,搜索数据a2000{3+厂高并发输入法行业第一,dau用户规模4彳乙+L」GOPS全球运维大会2018-深圳站搜狗是典型的大数据公司,我想表达的是我们的大数据团队也并不容易。如果了解搜索
4、引擎的实现机制会知道,搜索的好与坏和数据量规模有关系,无论市场多大,都必须收集很多的数据,才能保证数据的覆盖度。对搜狗来说,搜索引擎本身的数据量非常大,很多年前我要处理上百亿的数据,现在整个搜索的覆盖大概在2000亿左右。搜狗输入法目前是行业第一的产品,DAU用户规模4亿+,我们在很早的时候就已经面对4G内存的机器上万并发的情况。我们在规模体量上和数据规模上面对的问题挺多。GOPS2018ShenzhenI行驰穴数掘方同漏化大数据系统演化时间线解决数据规模问题
5、解决使用门槛问题
6、解决计算延迟
7、解决复杂场景Hadoop高速发展2006批虽计算2010SQL査询2012实
8、时计算2014机器学习GOPS全球运维大会2018-深圳站通过我的思考,把我对大数据演化方向的理解分享给大家。近期比较火的是以Hadoop生态为依托的生态系统。经历了几个阶段,每个时间节点并不代表Hadoop的研发时间点,而是被行业接受和逐步用起来的时间点。•第一阶段,Hadoop高速发展阶段,2010年之前,MapReduce刚刚出来,我们也是从Hadoop0.2版本跟起,更多的解决批量计算问题;•第二阶段,2010年前后,从我的感受来说,面太窄,只能依靠数据工程师去写MapReduce。当时Hive的出现,对于大数据系统有了质的飞跃,用户查询使用量也上来了,这时候
9、解决了使用门槛问题,传统的BI、数据工程师、SQL工程师、传统数据分析工程师都可以学习用到大数据的系统;•第三阶段,2012年前后,阿里双十一是代表,整个行业对实时计算的需求比较强烈;•第四阶段,近两年来公有云厂商z大家都知道数据应用的价值非常高,有很多的方向。典型的机器学习组件、广告算法等,原来的门槛很高,但是现在正在逐步的降低门槛,能够比较快的把初级模型搭起来。搜狗大概也有几个阶段:GOPS2018Shenzhen1.0时代专用的搜索大数据时代I搜狗穴数掘历决20092004GOPS全球运维大会2018-深圳站•第一阶段,我把他称之为专用的搜索大数据时代。我做过硏
10、发,我认为搜索是非常典型的系统。大家知道搜索的核心要抓取全网的数据,这就是数据采集的过程。抓下来大量数据要存下来,就是数据存储的问题,而且是大规模数据存储的问题。把数据抓下来后要做排序、超链分析等,这是一个数据分析的过程。后面是快速的搜索和检索。在2006年之前对搜狗来说,我觉得还是一个上古时期,几乎没有开源技术,所有的东西都靠自己研发,一切的一切只是为搜索服务。GOPS2018Shenzhen2.0时代行业接轨/大规模应用时代2009GOPS全球运维大会2018•深圳站2016•第二阶段,跟着Hadoop演化z我给定为行业接轨的时代。这时候各种工具和版图慢慢起来,包
11、括核心产品、数据报表、实时计算等应用起来了。GOPS2018Shenzhen2016GOPS全球运维大会2018•深圳站j年11尸一2未来「3.0时代:AI驱动/产品商业化大数据时代•第三阶段,从2016年开始我们开始向人工智能发力,前一段时间在互联网大会上,我们有同声传译。由于去年搜狗IP0后,我们在商业化方向有很多新的需求。在此情况下,诞生了对大数据团队的新需求和依赖。I搜狗穴数掘整血架絢•数据应用祗计愆数据工程师交互式査询I]s1/ISQL类用户广吿投放研发工程师•数据计算离线分析即虑查询I多维分析实时计算引聲•数据存储HadoopKafkaH
此文档下载收益归作者所有