谷歌与大数据时代课件.ppt

谷歌与大数据时代课件.ppt

ID:57290697

大小:1.52 MB

页数:25页

时间:2020-08-10

谷歌与大数据时代课件.ppt_第1页
谷歌与大数据时代课件.ppt_第2页
谷歌与大数据时代课件.ppt_第3页
谷歌与大数据时代课件.ppt_第4页
谷歌与大数据时代课件.ppt_第5页
资源描述:

《谷歌与大数据时代课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、谷歌与大数据时代谷歌与大数据谷歌搜索与流感预测无所不包的谷歌翻译系统谷歌的数字图书馆谷歌街景与GPS采集谷歌的拼写检查流感预测1.谷歌搜索与流感预测各国都要求医生在发现新型流感病例时告知疾病控制与预防中心。但由于人们可能患病多日实在受不了了才会去医院,同时这个信息传达回疾控中心也需要时间,因此,通告新流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次数据汇总。然而,对于一种飞速传播的疾病,信息滞后两周的后果将是致命的。这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。1.谷歌搜索

2、与流感预测然而在甲型H1N1流感爆发的几周前,谷歌公司便已预测到冬季流感传播的具体情况。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。1.谷歌搜索与流感预测谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。他们通过分析人们的搜索记录来判断这些人是否患上了流感。其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。更关键的是,他们建立的系统并不依赖于这样的

3、语义理解。他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。谷歌公司为了测试这些检索词条,总共处理了4.5亿个不同的数学模型。他们的预测与官方数据的相关性高达97%,并且及时判断出流感是从哪里传播出来的,不会像疾控中心一样要在流感爆发一两周之后才可以做到。1.谷歌搜索与流感预测所以,2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。更惊人的是,谷歌公司甚至不

4、需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。1.谷歌搜索与流感预测这是大数据时代所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。2.无所不包的谷歌翻译系统2006年,谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译

5、开始利用一个更大更繁杂的数据库,也就是全球的互联网,而不再只利用两种语言之间的文本翻译。2.无所不包的谷歌翻译系统谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本,甚至会吸收速读项目中的书籍翻译。谷歌的翻译系统会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语。2.无所不包的谷歌翻译系统尽管其输入源很混乱,但较其他翻译系统而言,谷歌

6、的翻译质量相对而言还是最好的,而且可翻译的内容更多。到2012年年中,谷歌数据库涵盖了60多种语言,甚至能够接受14种语言的语音输入,并有很流利的对等翻译。2.无所不包的谷歌翻译系统之所以能做到这些,是因为它将语言视为能够判别可能性的数据,而不是语言本身。因为在翻译的时候它能适当增减词汇,所以谷歌的翻译比其他系统的翻译灵活很多。谷歌的翻译之所以更好是因为谷歌翻译增加了很多各种各样的数据,是因为它接受了有错误的数据。2.无所不包的谷歌翻译系统2006年,谷歌发布的上万亿的语料库,就是来自于互联网的一

7、些废弃内容。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。如今谷歌语料库则是一个质的突破,它使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展。自然语言处理能力是语音识别系统和计算机翻译的基础。互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。3.谷歌的数字图书馆2004年,谷歌发布了一个野心勃勃的计划:它试图把所有版权条例允许的书本内容进行数字化,让世界上所有的人都能通过网络免费阅读这些书籍。为了完成这个伟大的计划,谷歌与全球最大和最著名的图书馆进行了合作,并且还发

8、明了一个能自动翻页的扫描仪,这样对上百万书籍的扫描工作才切实可行且不至于太过昂贵。3.谷歌的数字图书馆虽然这是一个现代的、数字化的亚历山大图书馆,比历史上任何一个图书馆都要强大,但谷歌依然希望它能做得更多。谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。3.谷歌的数字图书馆如今,不仅人类可以使用这些文本信息,计算机也可以处理和分析这些文本数据了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。