大致步骤

KNN是最临近规则分类算法。

为了判断未知分类,我们需要用已知分类进行参照。

  1. 选择参照物个数k。 k的取值一般都比较小,可以是1,3,5,7等数,通过实验得知哪个比较好就用哪个。一般用奇数,避免两边数目相同
  2. 选择最近的k个实例然后看他们都属于哪个类,让这个实例成为数目最多的实例。

距离衡量方法

  1. EUclidean Distance方法。和距离公式类似,对应特征值相减平方再开根号。

例:

from sklearn import neighbors
from sklearn import datasets # 这个库中自带一些有名的数据集

knn = neighbors.KNeighborsClassifier() # 创建分类器

iris = datasets.load_iris() # 导入数据集
knn.fit(iris.data, iris.target)
predictedLabel = knn.predict({% post_link 0.1, 0.2, 0.3, 0.4 %})