跳到主要内容

ML5进阶——机器学习数据分析(泰坦尼克号生存率预测)

简介

相信大家都看过铁达尼号电影里面凄美的爱情故事,今天我们就透过表象看实际,是什么因素影响了生存率(直男~)
机器学习包括6个步骤:提出问题、理解数据、数据清洗、构建模型、模型评估、方案实施。
问题已经提出,为了便于教学,将理解数据、数据清洗那块的繁琐的环节简化下,我们直接提供已经清洗好整理好的数据。

数据

泰坦尼克号沉没事件发生在1912年4月15日,许多人在这场悲剧中丧生,但许多人也得以幸存。这不是纯粹的运气,而是可以通过年龄,性别和机舱舱位以及机器学习的力量来预测的。
您可以在以下链接中找到更多信息:
https://www.kaggle.com/c/titanic

titanic_cleaned.csv

我们可以打开这份表格,稍微看下,里面有5列数据。
第一列为生存状况(输出结果)生存或者死亡
第二~五列为乘客的状况因素(输入因素)
image.png

通过这份输入输出的表格,我们可以借助机器学习的奥妙,后面我们通过给出输入因素,它就能告知我们是否生还。

DIY机器学习模型

如果说数据获取是最珍贵的一环,那么DIY模型这个过程就是最有技术含量的一环。DIY机器学习模型就像解方程。通过已知量,求解出一些常量,建立起方程公式。
对于这些多个因素,导致一个最终的结果。好在机械学习发展多年,它们有了特定的套路,可以用标准的模型进行套用。
加载我们的ML5插件——DIY模型分栏
image.png

由上面的截图可知,模型一般有两种,分类与回归。
分类很简单,是或者否,非黑即白。这张照片,是狗还是猫。
回归,一般指是某个范围,例如预测明天股价如何。

将数据导入模型中

数据加载到模型中,有以下几种方法。
数据是机器学习程序的食物,有很多方法可以进行数据加载。
前面两个是跟数据相关
后两个是跟图片数据相关
image.png

对于本篇,可以使用前两个积木块。它们的效果是等同的。
image.png
image.png

输入与输出,恰好对应我们csv的表头。
image.png

点击第三个窟窿,提示你选择刚才下载的文件。

训练模型

数据一切都准备好后的,也设置好输入与输出。
准备进行训练,训练50次就是经验值。
image.png

当你依次点击了以下三个积木块后,左侧就会出来训练的图标,可以看到它正在不断的收敛
image.png

应用预测

通过以上步骤训练出模型后,我们可以输入一些条件,通过模型进行预测是否生还。

在船的第一夹层,女性,32岁,船票100元,通过模型预测,她是可生还的。

image.png

在船的第三夹层,男性,32岁,船票100元,通过模型预测,他可能就要见上帝了...
image.png

附录

如果你觉得以上的对于你太简单了,不过瘾,那么可以看看,真正的程序猿是怎么做这块的机器学习数据分析。希望能给你更多的启发。
https://zhuanlan.zhihu.com/p/136290906