Google又为科研工作者推出了一款重磅产品——数据集搜索.doc

Google又为科研工作者推出了一款重磅产品——数据集搜索.doc

ID:27490070

大小:647.00 KB

页数:7页

时间:2018-12-04

Google又为科研工作者推出了一款重磅产品——数据集搜索.doc_第1页
Google又为科研工作者推出了一款重磅产品——数据集搜索.doc_第2页
Google又为科研工作者推出了一款重磅产品——数据集搜索.doc_第3页
Google又为科研工作者推出了一款重磅产品——数据集搜索.doc_第4页
Google又为科研工作者推出了一款重磅产品——数据集搜索.doc_第5页
资源描述:

《Google又为科研工作者推出了一款重磅产品——数据集搜索.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、Google又为科研工作者推出了一款重磅产品——数据集搜索  继GoogleScholar(Google学术搜索)之后,Google又为科研工作者推出了一款重磅产品——GoogleDatasetSearch(Google数据集搜索)。  为什么说这款产品如此重要?因为数据从未如此重要。由于深度学习的兴起,AI研究员需要大量的数据来训练他们的模型,吴恩达就曾表示,深度学习像火箭,计算是引擎,数据是燃料。有时候,数据可能比算法更重要。  然而,数据集和相关数据往往分布在网上的多个数据存储区中。在大多数情况下,搜索引

2、擎既无法提供这些数据库相关信息的链接,也不会将这些信息编入索引,这会导致数据寻找变得无比繁琐,或者在某些情况下无法实现。  一些掌握了大量数据的互联网公司也因此拥有很大的优势,而高校的学者除了一些公开的知名数据集,想要拥有大量的数据则非常困难,因此Google的这款产品可谓是及时雨。当然,其他需要各种数据的工作者也能从中受益。  GoogleDatasetSearch为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。  现在,就让我们来一起看下这款搜索工具。  与GoogleS

3、cholar类似,GoogleDatasetSearch可方便用户查找托管在任何位置的数据集,无论是出版网站、数字图书馆还是作者的个人网页。  为了创建DatasetSearch,Google还为数据集提供方制定了一套数据指南(https://developers.google.com/search/docs/data-types/dataset)。这些指南包括有关数据集的重要信息:数据集的作者,发布时间,数据收集方式,使用数据的条款等等。然后,Google收集并链接这些信息,分析同一数据集的不同版本可能在哪里

4、,并找到可能描述或讨论这一数据集的出版物。  Google的指南是基于一个数据集的开放标准(schema.org),任何发布数据的人都可以通过这种方式描述他们的数据集。      在这个新版本中,用户可以找到很多环境和社会科学相关的数据集,以及其他学科的数据,包括政府数据和新闻机构提供的数据,如ProPublica。随着越来越多的数据仓库使用schema.org标准来描述他们的数据集,GoogleDatasetSearch能够搜索到的数据集的种类和覆盖面将持续增长。  目前GoogleDatasetSearch

5、已经支持多种语言,笔者尝试了下,除了英文,还支持中文。  我们先尝试下英文搜索,如果你想分析天气记录,那么就可以在GoogleDatasetSearch的输入栏里尝试输入“dailyweather”,结果如下图所示:      可以看到,左边栏呈现的是各种数据源,右边则是相应的介绍,包括数据集的名称、下载链接、更新日期、提供者、说明等等,非常清晰。  现在,我们来尝试下中文,在搜索栏输入“房价”,第一条就是中国房价的数据集,该数据集由CEIC提供,涵盖的时间段从2017年7月1日—2018年6月1日,算是非常新

6、的数据了。      打开该数据集的链接,嗯,是个收费网站。不过,花钱能解决的事,总比毫无头绪来得好。    DatasetSearch的发布凸显了Google对数据集的重视。最近,Google也对自家的GoogleSearch也进行了改进,使得用户搜索结果中发现表格数据变得更加容易,不过该计划更侧重于新闻机构和数据记者,而DatasetSearch的受众则更加广泛。  Google表示,这个项目能够带来下列好处:  a)形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;  b)为科学家提供相应

7、平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。  当然,GoogleDatasetSearch的搜索质量取决于数据发布者,因此,如果大家都用开放标准来描述自己的数据,那么搜索结果肯定会越来越好。  GoogleDatasetSearch目前仍处于测试阶段,虽然支持中文搜索,但中国大陆的用户想要使用依然需要“梯子”,不过这么好的工具,错过岂不可惜!  针对GoogleScholar,2014年6月百度上线了“百度学术”,不过大家似乎仍对GoogleScholar情有独钟。这次,百度怎么看?

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。