谷歌推出数据集搜索黑科技,再也不用发愁找数据!.doc

谷歌推出数据集搜索黑科技,再也不用发愁找数据!.doc

ID:28145232

大小:260.00 KB

页数:6页

时间:2018-12-08

谷歌推出数据集搜索黑科技,再也不用发愁找数据!.doc_第1页
谷歌推出数据集搜索黑科技,再也不用发愁找数据!.doc_第2页
谷歌推出数据集搜索黑科技,再也不用发愁找数据!.doc_第3页
谷歌推出数据集搜索黑科技,再也不用发愁找数据!.doc_第4页
谷歌推出数据集搜索黑科技,再也不用发愁找数据!.doc_第5页
资源描述:

《谷歌推出数据集搜索黑科技,再也不用发愁找数据!.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、谷歌推出数据集搜索黑科技,再也不用发愁找数据!  旨在整合全球互联网信息的谷歌,其首要目标本来是林林总总的商业网站。但最近,它推出了一种新型的数据集搜索引擎,将服务目标延展到了科研社群。这就是属于科研工作者等数据狂的黑科技——GoogleDatasetSearch(谷歌数据集搜索)。  谷歌数据集搜索发起了一次数据搜索的革命,它让人们能够迅速获取分散在全互联网的各式数据集。无论是网站、数字图书馆还是专业数据库,只要是存在于线上的共享数据集,就能够被引擎找到。用户键入搜索信息后,谷歌会分析比对相同数

2、据集的不同版本,并尽可能地检索有价值的相关信息。  实际上,这次革命的核心工具非常纯粹,就是一个可以将各式数据集集中在一起加以描述检索的开放标准(http://schema.org)。数据发布者按照这个标准所定义的标签框架,对发布的数据内容进行标签式的描述。定义的标签包括发布时间、发布方、数据收集方式等等。而引擎随后会将这些标签信息编入索引,并与谷歌知识谱图结合使用,从而使本来分布零散的数据集成为一个能够统一检索的强大系统。    Figure.1GoogleDatasetSearch使用实例  

3、  Figure.2GoogleDatasetSearch使用实例  谷歌的人工智能科学家娜塔莎·诺伊(NatashaNoy)接受采访时表示,创建数据集搜索的目标是将数以万计的在线数据集统合展示,并非自行建立数据库收集数据,她说:“我们只是希望这些数据能够被人们轻松获取,并不是想将其收集挪动到其他地方。“  目前,互联网上的数据集资料分布极其零散。不同的学科领域各自拥有自己的首选资源库,各政府机构和地方当局更是如此。诺伊说:“科学家们当然知道能在哪些专业数据库找到他们自己领域的数据,但他们有时想要

4、的并不是这一类数据。而一旦他们将视野拓展到专业领域之外,数据搜寻就会变得十分困难。”  诺伊举了一个她亲历亲闻的例子,一位气象学家在为即将开展的研究寻找海洋温度的特定数据集,但怎么也找不到。她没有继续追踪,直到她在遇到了相关方面的同事,在同事的帮助下她才找到那个数据库。然后她的研究工作才得以继续。诺伊说:“虽然保存数据的地方算是很显见,数据描述也写得很清晰,但仍然很难被找到。”  该搜索引擎的初始版本主要包括来自ProPublica等新闻机构以及政府机构的数据和数据集。但是,如果这项搜索服务最终流

5、行起来,那么随着机构和科学家争相开放数据的访问权限,它所囊括的数据量肯定会呈现滚雪球式的成长。  而近年来,世界各地关于数据开放共享的倡议正在蓬勃发展,这将有助于数据集搜索引擎的实现。诺伊认为,在过去的几年里,可共享数据的存量已经爆炸,她将此归功于科学文献中数据的重要性在日益增长——因为期刊会要求作者将数据集发布出来。而除此之外,美国政府和欧洲政府的法律法规也在进一步引导数据开放共享。  开放数据研究所(ODI)首席执行官JeniTennison表示,Google参与到开放数据行动中来,将更有利于

6、这项运动获得成功。数据集搜索一直是一个很困难的事情,希望谷歌能让它变得更加容易。她进一步说,要创建一个像样的搜索引擎,你需要知道如何构建对用户友好的系统,并了解人们在键入某些短语时的真实所想。而谷歌对这些了如指掌。事实上,对于搜索引擎来说,最重要的是用户所产生的行为数据,这才是促进引擎快速成长的活力源泉。所以,虽然搜索引擎赖以抓取数据集的元数据标签是一个开放标准,任何竞争对手(如Bing或Yandex等)都可以使用它来构建自己的竞争服务,但谷歌从没有丧失自己的真正优势。Tennison也表示:“直

7、观地了解人们的搜索方式很重要,譬如,他们在检索时会使用什么样的术语,又会如何表述这些术语。从了解人们如何搜索数据,并据此进一步推进数据开放的角度说,如果谷歌能够开放自己的用户行为数据,将会大有裨益。”  总而言之,更多的数据开放共享是值得期待的潮流,而谷歌无疑又一次扛起了领头的大旗。当然,在谷歌完全回归中国之前,我们距离便利还会多一个梯子的距离。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。