星牛思忖很久,欲言又止。
bit看透了星牛心中疑虑,补充解释道:随便指定一个k,谁也无法保证这个数能不能判断准确,可能k个三体星系统里面有或者没有拉格朗日点的三体星系统数量一样,甚至是多数没有,但是k+1或者k+2就变成多数都有了,那也说不定。
星牛听完认同地点点头。
bit :这个问题的确存在,所以,为了将这个可能性尽量减小,我们并不是只进行一轮就直接让密集三体星区域另一侧大部分巡航舰直接通过,而是进行多次调整:通过五到十次确认,增大或者减小k的值。
具体来说怎么调整呢?一个问题就是我们利用十个已知星体系统当中的一个作为假想的待判别星体,利用其它九个作为我们的参照星体,我们就不断地调整k,也就是说判断k个星体里面的多数是有还是没有;进而判断这个假想星体,因为我们实际上知道他到底有没有拉格朗日点(通过虚线脉冲测量得到),那么我们就可以看出每次的k的效果,到底能不能判断准确,我们进行十次甚至更多次,找到一个让所有已知星体的判定结果都准确或者准确率最高的一个k,然后再拿这个k值以及上面的方法去判定未知星体系有无拉格朗日点,这时候的k是一个相对靠谱的值,当然了,理论上进行的调整次数越多以及我们已知的星体系统越多,我们找到的这个k才越准确。但是...我们的补给没有那么多,在保证未来舰队可能面临一些棘手的问题时不至于被动,我们只能先进行十次虚线脉冲的测量。
不过有个风险就是,既然是预测,肯定就会有一定的风险,如果哪个三体星系统判断失误,那就意味着从这里通行的巡航舰...
大家都明白了,这时候舰长经过短暂的思考,下达了按照bit的方案执行的命令。
实际的结果如何呢?
02—掉书袋
【1】 上述情节是对k-近邻(knn)分类算法的一个通俗演义。
【2】 k-近邻非常容易理解:在特征空间中,若一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一类别,则该样本也属于该类别。
【3】 k-近邻与聚类的思想上有些类似,但是k-近邻是监督算法,需要知道类别标签,然后对特征空间中与对应类别相近的点统一打上此标签。
【4】这里强调一下k值的选取:如果k值选择的较小,模型容易过拟合;如果k值过大,那么模型就过于简单:
下图展示了不同的k值对分类效果的影响,其中红色五边形是待分类点,也即不知道该点属于黑色圆圈类还是蓝色方块类。若k=1(红圈),意为待分类点(红色五边形)与最近的1个点类别相同,应该划分为黑色圆圈类;若k=8(蓝圈),意为五边形与最近的8个样本点的多数类相同,应该划分为蓝色方块类;若k=20(绿圈),意为五边形与最近的20个样本点的多数类相同,再次被划分为黑色圆圈类。实际结果是该点划分为蓝色方块类更合适,所以k值不能太大也不能太小。
【5】既然是“近邻”,那么需要有一个刻画远近的尺度标准,在实际应用过程中,通常采用欧氏距离作为刻画远近的标准
03—参考文献
1. 关键字:《统计学习方法》、李航
2. 关键字:《机器学习》、西瓜书、周志华
3. 关键字:coursera、k-近邻
比奇屋 www.biqi5.com