大家好,关于深度学习在MNIST数据集上的H2O操作手册很多朋友都还不太明白,不过没关系,因为今天小编就来为大家分享关于的知识点,相信应该可以解决大家的一些困惑和问题,如果碰巧可以解决您的问题,还望关注下本站哦,希望对各位有所帮助!
2018-05-07-15-29-30.jpg
导入文件(Import Files)
h2o似乎支持导入多种文件格式,如.gz、zip、csv、txt等,也可以直接导入文件目录。
我测试的时候直接使用了.gz文件,实际上是一个mnist csv文件。
系统导入一个文件后,会为该文件生成另一个后缀为.hex的文件。后续的文件解析和建模都依赖于此。
解析文件(Parse File)
前面导入文件只是第一步,这一步解析文件非常重要。总的来说,h2o 非常聪明。它知道如何解析文件,同时也提供了解析文件的各种参数,方便用户选择。
2018-05-07-15-46-46.jpg 这些参数说明如下:
ID:如前所述,系统会给导入的文件命名,后缀为.hex。可以在此处修改此名称。
Parser:这个解析器,我的理解是对应h2o支持的几种文件格式
AUTO:h2o 自动解析ARFFXLSXLSXCSVSVMLightORCAVROPARQUETSeparator:应引用文件中的列分隔标识符。通常,csv 文件以, 分隔。这里有一些图片来说明。 h2o 支持许多分隔符。
2018-05-07-16-04-31.jpg
2018-05-07-16-05-34.jpgColumn Headers:列标题的解析规则。有的文件会在第一行标明列名信息,有的则不会,所以需要设置一下。 h2o提供了参数选择,您可以根据实际情况进行选择。
Options:其他一些参数配置。启用单引号作为字段引号字符意味着启用单引号来表示引号字符。 Delete on done 应该是解析完成后删除导入的数据。 h2o 建议选择此项。
编辑列名称和类型:这是一个非常重要的设置。您需要告诉解析器文件中每列的列名称和列数据类型。同样,正常情况下,如果没有列名,h2o会自动递增设置,h2o会自动判断数据类型。然而,自动确定可能并不总是正确的。最后,用户仍然需要检查并正确设置一些重要的列。例如,对于分类问题,样本的标签值一般是数字,但是用户需要在这里将其设置为枚举,即Enum。
h2o解析文件时,会出现如下界面,显示解析进度:
2018-05-07-16-22-00.jpg 在h2o中,基本上每个操作都会被视为一个Job。
点击查看后:
2018-05-07-16-22-57.jpg 可以看到数据集的详细信息,用户可以将标签列设置为枚举。当标签列设置为枚举时,h2o将显示分类标签的统计图表。
2018-05-07-16-25-14.jpg 上图中inspect的中文意思是“检查”,可以理解为数据可视化。用户可以配置不同的参数来查看标签栏的数据分页图表。
2018-05-07-16-35-55.jpg
2018-05-07-16-36-24.jpg
2018-05-07-16-36-49.jpgimpute 有点像纠错。用户可以修改某列具体值的计算规则:
2018-05-07-16-45-28.jpgColumn-C785+Method-Mean+Group By C1 C2,我个人的理解是‘修改C785列的值以C1和C2为基础,取它们的平均值值(平均值)"。
Method有三个值:Mean(平均值)、Median(中位数)、Mode(模数)
构建模型(Build Model)
第一步:选择模型算法
2018-05-07-16-59-21.jpg
2018-05-07-16-59-36.jpg 由于我现在做的是mnist的例子,所以我选择Deep Learning。当我选择深度学习算法时,我会发现界面中增加了大量的参数配置:
2018-05-07-17-02-48.jpg
2018-05-07-17-04-18.jpg
2018-05-07-17-04-45.jpg
2018-05-07-17-05-02.jpg
2018-05-07-17-05-36.jpg 按照官方说明,给出了一些重要的参数说明:
2018-05-07-17-23-23.jpg 上图主要设置了训练数据集和测试数据集,以及最终的分类列,也就是上图中的response_column。
2018-05-07-17-24-37.jpgactivation:设置激活函数
隐藏:设置隐藏层神经元的维度和数量。这里的128,64表示设置了两个隐藏层。第一层有128个神经元,第二层有64个神经元。
Epochs:这个大家应该都明白,就是训练轮数。
variable_importance:变量重要性,这个我不懂,不废话
2018-05-07-17-28-37.jpgadaptive_rate:自适应学习率。如果您想手动设置,则需要取消选中它。
input_dropout_ratio:这是一个防止过拟合的参数。这是输入层的比率。因为只有一层输入层,所以这里设置一层即可。
hidden_dropout_ratios:同上,这个是设置隐藏层的比例,因为我们只是设置隐藏层为两个,所以这里用逗号分隔
l1和l2:这些也是防止过拟合的参数。我不知道细节。
2018-05-07-17-33-39.jpg
2018-05-07-17-34-02.jpg 这四个参数是设置早停的参数。我不知道具体含义。
2018-05-07-17-35-19.jpg 这些参数是设置随机因子、学习率、衰减率、动量因子等,具体请看解释。
正式构建模型
单击构建模型:
2018-05-07-17-37-36.jpg
2018-05-07-19-12-25.jpg 点击上图中的超链接:
2018-05-07-17-42-27.jpg 可以看到h2o为模型提供了大量的可视化数据展示和功能按钮。上图显示了可以对模型执行的操作:
刷新:刷新
预测:预测
下载POJO:这应该是下载模型对象。下载后,你会发现它是一个Java文件。文件超过3M,约10万行。
下载模型部署包(MOJO):一个压缩包,不知道是什么。
导出:将模型导出到指定路径。
检查:我不太清楚。
2018-05-07-18-32-06.jpgDelete:删除模型
下载Gen Model:可执行jar包。
我们仔细看看具体的模型结果显示信息:
首先是模型参数信息,即构建模型之前设置的自定义参数:
2018-05-07-18-09-47.jpg 我不知道下面的是什么意思。好像是loss的对数,用于图形显示,但不知道具体是什么意思。
2018-05-07-19-28-46.jpg 下面是变量重要性,这意味着对于所有特征列,它可以计算哪些对结果有更重要的影响,并按重要性对这些特征进行排名。
2018-05-07-19-29-14.jpg 这应该是一个训练混淆矩阵。行是真实的分类,列是预测的分类。它是每个分类的结果和错误率的显示。
2018-05-07-19-29-42.jpg 这也是一个验证混淆矩阵。行是真实分类,列是预测分类。它是每个分类的结果和错误率的显示。
2018-05-07-19-30-03.jpg 显示的模型结果很多,这里就不一一列举了。
有一个问题我今天还没想明白。不管我怎么修改参数,最终的训练轮数和我设定的epoch不一样,而且要小很多。我不知道为什么。
深度学习在MNIST数据集上的H2O操作手册的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于、深度学习在MNIST数据集上的H2O操作手册的信息别忘了在本站进行查找哦。
【深度学习在MNIST数据集上的H2O操作手册】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
终于看到有人用 H2O 做 MNIST 深度学习了!
有8位网友表示赞同!
感觉 H2O 和深度学习这对组合很不错,希望效果能令人惊喜。
有20位网友表示赞同!
这个实验很有意思,我要去研究一下 H2O 的深度学习功能。
有10位网友表示赞同!
分享一下这篇文章的详细操作步骤吧,我也想试试看。
有19位网友表示赞同!
学习如何用 H2O 操作 MNIST 图像分类问题可以扩展我的机器学习知识吧。
有11位网友表示赞同!
我对这个实验结果很期待,希望有人能深入分析一下模型的效果。
有14位网友表示赞同!
用 H2O 做深度学习是一个新颖的想法,期待更多相关探索。
有15位网友表示赞同!
MNIST 数据集一直是入门深度学习的经典选择,可以用来比较不同的深度学习框架。
有6位网友表示赞同!
了解 H2O 操作 MNIST 能够帮助我更好地理解深度学习模型的运作机制。
有14位网友表示赞同!
希望这个实验能展示 H2O 在处理图像识别任务上的优势。
有9位网友表示赞同!
可以用 H2O 生成的一些可视化效果来分析神经网络的行为吗?
有5位网友表示赞同!
想了解更多关于 H2O 深度学习模型训练和评估的细节。
有8位网友表示赞同!
这个研究可以为新手入门深度学习提供一些实践操作经验。
有6位网友表示赞同!
如果用其他框架,例如 TensorFlow 或 PyTorch,效果会如何呢?
有12位网友表示赞同!
期待看到未来 H2O 深度学习的功能进一步升级和扩展。
有20位网友表示赞同!
这篇文章能帮助我更好地选择适合自己的深度学习工具。
有16位网友表示赞同!
H2O 和 MNIST 的结合让人感到很有创新精神,可以推动机器学习的发展。
有16位网友表示赞同!
想深入了解这个实验中使用的具体算法和模型结构。
有18位网友表示赞同!
希望未来会有更多关于 H2O 深度学习的应用案例分享。
有12位网友表示赞同!