ML5进阶——机器学习数据分析(泰坦尼克号生存率预测)
简介
相信大家都看过铁达尼号电影里面凄美的爱情故事,今天我们就透过表象看实际,是什么因素影响了生存率(直男~)
机器学习包括6个步骤:提出问题、理解数据、数据清洗、构建模型、模型评估、方案实施。
问题已经提出,为了便于教学,将理解数据、数据清洗那块的繁琐的环节简化下,我们直接提供已经清洗好整理好的数据。
数据
泰坦尼克号沉没事件发生在1912年4月15日,许多人在这场悲剧中丧生,但许多人也得以幸存。这不是纯粹的运气,而是可以通过年龄,性别和机舱舱位以及机器学习的力量来预测的。
您可以在以下链接中找到更多信息:
https://www.kaggle.com/c/titanic
我们可以打开这份表格,稍微看下,里面有5列数据。
第一列为生存状况(输出结果)生存或者死亡
第二~五列为乘客的状况因素(输入因素)
通过这份输入输出的表格,我们可以借助机器学习的奥妙,后面我们通过给出输入因素,它就能告知我们是否生还。
DIY机器学习模型
如果说数据获取是最珍贵的一环,那么DIY模型这个过程就是最有技术含量的一环。DIY机器学习模型就像解方程。通过已知量,求解出一些常量,建立起方程公式。
对于这些多个因素,导致一个最终的结果。好在机械学习发展多年,它们有了特定的套路,可以用标准的模型进行套用。
加载我们的ML5插件——DIY模型分栏
由上面的截图可知,模型一般有两种,分类与回归。
分类很简单,是或者否,非黑即白。这张照片,是狗还是猫。
回归,一般指是某个范围,例如预测明天股价如何。
将数据导入模型中
数据加载到模型中,有以下几种方法。
数据是机器学习程序的食物,有很多方法可以进行数据加载。
前面两个是跟数据相关
后两个是跟图片数据相关
对于本篇,可以使用前两个积木块。它们的效果是等同的。
输入与输出,恰好对应我们csv的表头。
点击第三个窟窿,提示你选择刚才下载的文件。
训练模型
数据一切都准备好后的,也设置好输入与输出。
准备进行训练,训练50次就是经验值。
当你依次点击了以下三个积木块后,左侧就会出来训练的图标,可以看到它正在不断的收敛
应用预测
通过以上步骤训练出模型后,我们可以输入一些条件,通过模型进行预测是否生还。
在船的第一夹层,女性,32岁,船票100元,通过模型预测,她是可生还的。
在船的第三夹层,男性,32岁,船票100元,通过模型预测,他可能就要见上帝了...
附录
如果你觉得以上的对于你太简单了,不过瘾,那么可以看看,真正的程序猿是怎么做这块的机器学习数据分析。希望能给你更多的启发。
https://zhuanlan.zhihu.com/p/136290906