众人惊诧地把目光投向bit,其中队员星牛对bit说:呵呵,这不就是直线的一般式方式,莫欺俺… …
bit哈哈一笑,接着解释:如果用矩阵表示的话… …还没说完,星牛打断道:啥啥啥?啥矩阵?矩啥阵?矩阵啥?
bit继续:那么这个方程就是ax+b=0;a=( w1 w2) x=, b=(b);先撇开矩阵表示不说,为了确定这条分割线,需要知道w1和w2以及c的值是什么,你们学过的直线方程,b就是充当截距的,w1和w2都是用来计算斜率的;其实从另一个角度,w1和w2分别表示与之对应的特征的重要程度,比如w1与x1相乘,那么w1的值可以理解为对x1也就是体积的重视程度;同理,w2就表示对x2也就是自转速度的看重程度。
bit咳嗽一声继续解释道:用随机梯度下降进行梯度更新从而获得w1和w2的最终值。
bit看出了大家的满脸疑惑,解释道:梯度下降可以这样理解:一个山坡,山坡各处的路况不同,为了找到最快最短的下山的路,每次需要从当前所在点找到下一步要走的方向并走完这段距离,然后到下一个点再找一下从当前位置往哪个方向走更快路线更短更优,然后继续走,直到走下山位置,这个找的过程基本操作是求偏导数,然后… … 算了算了,你们知道这些就够了。
【梯度下降的示意图可以理解为最快最短下山路,见下图】
那么我是怎么找到区分有效碎片和无效碎片分界线的呢?这个问题其实就是一个最优化的过程,其实可以把这个分界线的寻找过程转化为例如分类的错误率/正确率的问题,优化过程就是不断地调整和优化参数使得当前的分界线可以获得最高的分类正确率,直到某个界限(可以是一个事先设置好的阈值,比如学习多少轮或者准确率达到多少等)
于是bit就用这条线去划分了这次的天体碎片群,精准打击了那些真正的威胁性碎片,而任由其他碎片撞过来,避免了巡航舰及母舰过多的能源消耗。
当然,实际情况是除了体积、自转速度还有碎片上坑洞数目、坑洞大小、与近邻碎片的距离等诸多特征,道理都是一样的… …
星牛补充道:而完成这一切思考和运算你只用了2秒?
在bit嘴角微微上扬,没有说话。
02—掉书袋
【1】 上述情节是对感知模型(perceptron)的一个通俗的演义,当然是简化再简化的版本。故事中的每个天体碎片其实就是一条数据,数据有多个维度的特征,就好像天体碎片可以有体积、自转速度、邻近碎片距离、坑洞大小、坑洞多少等不同维度的数值,每条数据都是这样的n个维度数据,从而可以看成一个1xn的矩阵。
【2】 感知机模型是svm(支持向量机)的基础版,后续会介绍svm。
【3】 上述感知机模型演义中的分界线(就是上述情节中区分有效碎片和无效碎片的分界线)可以有无限多条,就像图中的分界线一样,对这条曲线进行一定的平移不影响分类效果,所以结果不唯一;这条曲线又叫超平面,超平面有时候是二维的线,有时候是三位的面,有时候是曲面... ...依次类推。
【4】 上述情节当中的学习目标选为分类的正确率不合适,因为分类正确的个数作为目标函数的话,它不是权重参数w和偏置b的连续函数,无法求导,也就无法利用梯度下降法进行优化,也就无法“学习”;正确的应该是选所有误分类点到超平面的距离最远作为优化目标。
【5】 感知机模型同样是深度学习中神经网络模型的基础,关于深度学习和神经网络后续会有所介绍。
【6】 感知机模型是典型的的监督学习模型,需要监督数据,也就是上述情节中bit已知部分数据到底是有效碎片还是无效碎片。
03—参考文献
1. 关键字:《统计学习方法》、李航
2. 关键字:《机器学习》、西瓜书、周志华
3. 关键字:coursera + perceptron、感知机
比奇屋 www.biqi5.com