语义鸿沟 : 计算机无法从图像中直接提取出信息

近邻分类器¶

  • 近邻分类器:在训练数据种匹配最接近的数据标签
  • 衡量距离的方式
    • L1 距离:$d_1(I_1,I_2)=\sum_p|I_1^p-I_2^p|$
    • L2 距离: $d_2(I_1,I_2)=\sqrt{\sum_p\left(I_1^p-I_2^p\right)^2}$ image.png

改进:k-近邻分类器,使用最近的k个训练集数据标签进行投票,使决策边界平滑,使模型获得更高的鲁棒性

超参数:模型无法通过学习得到的参数,需要在训练之前提前设定

交叉验证: image.png

近邻分类器上的问题:

  • 无法很好的用于图像分类因为距离的概念很难描述图像之间的差距
  • 维度灾难:在高维度下距离的概念失效;需求训练集数量剧增

线性分类器¶

  • 输入:图像数据矩阵
  • 输出:不同类别的概率
  • 公式:$\mathrm{f(x,W)}=\mathrm{W(x+b)}$ image.png
  • 每个线性分类器可以学习到一个类的模板(模板匹配的过程),通过逆推我们可以看到其学习到的图像 线性分类器的问题:
    • 无法解决一些通过一条线性划分无法解决的问题