第5章:MNIST数据集简介

第5章:MNIST数据集简介

ID:81931913

大小:2.31 MB

页数:42页

时间:2022-10-14

第5章:MNIST数据集简介_第1页
第5章:MNIST数据集简介_第2页
第5章:MNIST数据集简介_第3页
第5章:MNIST数据集简介_第4页
第5章:MNIST数据集简介_第5页
第5章:MNIST数据集简介_第6页
第5章:MNIST数据集简介_第7页
第5章:MNIST数据集简介_第8页
第5章:MNIST数据集简介_第9页
第5章:MNIST数据集简介_第10页
资源描述:

《第5章:MNIST数据集简介》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、张明副教授人工智能原理:基于Python语言和TensorFlow第五章:MNIST机器学习MNIST数据集简介MNIST数据下载softmax回归模型简介模型的训练与评估TensorFlow模型基本步骤构建softmax回归模型5.1:MNIST数据集简介1MNIST数据集的概念2MNIST数据集功能3MNIST数据集组成1:MNIST数据集的概念当学习任意一门计算机语言进行编程时,首先接触的第一个程序就是打印“HelloWorld”。大家接触每一种编程语言都会有HelloWorld作为第一个

2、编程任务,在人工智能机器学习领域也不例外。学习人工智能的初学者,通过使用MNIST(MixedNationalInstituteofStandardsandTechnologydatabase)手写数字识别任务的练习,来对人工智能TensorFlow进行最初步的应用。1:MNIST数据集的概念手写数字的MNIST数据集手写数字的MNIST数据集来自于美国国家标准与技术研究所(NIST),它是一个庞大的手写数字数据库,也是网上著名的公开数据集之一。包含了60,000个训练示例图片以及10,000个

3、测试图片,数据集的图片分别代表了阿拉伯数字0~阿拉伯数字9中的任意一个数字,图片只包含灰度值信息,规格尺寸为28×28,所以每一张图片就是拥有784(28×28)列的数据,数字位于整张图片的最中央位置,它是NIST提供的更大集合的一个子集。训练集(trainingset)由来自250个不同人手写的数字构成,其中50%是高中学生,50%来自人口普查局(theCensusBureau)的工作人员。测试集(testset)也是同样比例的手写数字数据。5.1:MNIST数据集简介1MNIST数据集的概念

4、2MNIST数据集功能3MNIST数据集组成2:MNIST数据集功能数据集有两个功能:(1)提供了大量的数据作为训练集和测试集,为一些兴趣爱好者和学习者提供了丰富的资源信息。(2)形成一个业界领域具有一定对比程度的项目,不同的研究者使用了相同的数据集,从而可以更加方便地将结果进行对比,从而验证出哪种设计的程序识别率更高。MNIST是一个简单的计算机视觉数据集。它由图5-1所示的手写数字的图像组成。它还包括每个图像的标签,以便清楚地告诉我们出现的是什么数字。例如,上述图像的标签分别是5、2、5、3

5、,所以,MNIST数据集中的每张数据图片都被事先标注了相应的阿拉伯数字。5.1:MNIST数据集简介1MNIST数据集的概念2MNIST数据集功能3MNIST数据集组成3:MNIST数据集组成将MNIST数据集从官方网站下载完毕,下载下来的数据集图片被分成两部分:包含了60000张图片的训练数据集(mnist.train)包含了10000张图片的测试数据集(mnist.test)其中,训练数据集用来提供给使用者进行模型的训练,以期训练出合适的模型;测试数据集用来提供给使用者对前一个阶段训练出的模

6、型进行性能上的测试,在机器学习模型设计阶段,必须要设置一个单独的测试数据集用来评估模型的性能,这个测试数据集不用于训练。3:MNIST数据集组成MNIST数据单元分为两个部分:一张包含手写数字的图片一个对应的标签我们把图片设为“xs”,把这些标签设为“ys”。训练数据集和测试数据集都含有xs和ys,可以将训练数据集的图片名称设定为mnist.train.images,将训练数据集的标签设定为mnist.train.labels。3:MNIST数据集组成每一张图片包含28像素×28个像素点,可以用

7、一个数字数组来表示这张图片,如图5-2所示。将这个数字数组展开成一个向量,长度是28×28=784。数字间的顺序不重要,只要保持各个图片采用相同的方式展开。图5-23:MNIST数据集组成MNIST数据集的图片就是在784维向量空间里面的点,并且拥有比较复杂的结构。在MNIST训练数据集中,mnist.train.images是一个形状为[60000,784]的张量,第一个维度数字用来索引图片,第二个维度数字用来索引每张图片中的像素点。在此张量里的每一个元素,都表示某张图片里的某个像素的强度值,

8、值介于0和1之间,如图5-3所示:图5-33:MNIST数据集组成MNIST数据集的标签mnist.train.labels是介于0到9的数字,用来描述给定的训练图片里所表示的数字。标签数据用“one-hotvectors”的形式来表示,所谓的"one-hot"是指一位有效编码,即,我们使用n维度的向量来表示n个类别,这其中,每一个类别都会占据相对独立的一个位置,因此,一个one-hot向量即为除了某一特定位置的数字是1以外,其余各维度数字都是0。数字n将表示成一个只有在第n维度(从0开始)数字

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。