从泰坦尼克号谈到浅层神经网络

前言 最近因为课题需要,捡起了很多年前学了但是没怎么应用的机器学习。作为一个经典的算法,逻辑回归目前被作为神经网络诞生前的基础,具有广泛的应用。单层单节点的逻辑回归在“泰坦尼克号生还概率预测”这个问题上表现较为良好(~78%准确度)。本文的在线示例是用大约600条历史上泰坦尼克号上的搭乘者->生还/死亡数据,喂给一个3层的神经网络训练而成。对于以下细节,你或许会感兴趣: 数据集:训练样本627条,测试样本264条 准确度:训练集88%,测试集83%,尚未进行超参数优化(还没来得及做) 模型状况:三层的浅层神经网络,节点数分别为:128(ReLU), 64(ReLU), 1(Sigmoid) 源码:qwezarty/machine-learning-examples 注:在线演示的参数验证并不严格,还请大家手下留情不要用表单工具提交一些奇怪的值(要是把AI玩坏了,她会来找你算账的),另外为了简化输入,我使用下拉选项替代了许多的文本框。好了,现在大家就可以由观看《泰坦尼克号》的经验,有序上船,会不会翻全看造化啦! 在线示例 性别(只接受男/女噢): 男 女 年龄(5-80之间都很合理): 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 5 10 15 船票等级: 三等舱 一等舱 二等舱 船票费用: 0(偷渡的或工作人员) 5 10 15 30 35 40 50 100 200 船舱位置: 我也不清楚 C G A B D F E 登船港口: 南安普敦, Southampton 瑟堡, Cherbourg 皇后镇,Queenstown 我也不清楚 是否单独一人: 否 是 登船的配偶及亲兄弟/姐妹人数: 1 2 3 4 0 登船的父母/子女人数: 0 1 2 3 5 来吧,决定命运的时候到了! 本AI认为你大约有%的几率生还。 这个模型有什么用? 这是一个典型的“疾病与风险控制”示例,想象一下把数据源替换成“良性/恶性肿瘤与各特征的关系”,例如肿瘤的三维尺寸、发病时长、患者的性别/年龄/遗传疾病史等等,如果你有几百条这样的数据,在良好的调优的前提下,你甚至能达到90%以上的准确度(甚至超过了那些经验丰富的医师,所以有言论说是AI的出现会使医生失业,并不是空穴来风)。...

June 4, 2020 · 1 min · Bruce Yip