语义鸿沟 : 计算机无法从图像中直接提取出信息
近邻分类器¶
- 近邻分类器:在训练数据种匹配最接近的数据标签
- 衡量距离的方式
- L1 距离:$d_1(I_1,I_2)=\sum_p|I_1^p-I_2^p|$
- L2 距离: $d_2(I_1,I_2)=\sqrt{\sum_p\left(I_1^p-I_2^p\right)^2}$
改进:k-近邻分类器,使用最近的k个训练集数据标签进行投票,使决策边界平滑,使模型获得更高的鲁棒性
超参数:模型无法通过学习得到的参数,需要在训练之前提前设定
交叉验证:
近邻分类器上的问题:
- 无法很好的用于图像分类因为距离的概念很难描述图像之间的差距
- 维度灾难:在高维度下距离的概念失效;需求训练集数量剧增
线性分类器¶
- 输入:图像数据矩阵
- 输出:不同类别的概率
- 公式:$\mathrm{f(x,W)}=\mathrm{W(x+b)}$
- 每个线性分类器可以学习到一个类的模板(模板匹配的过程),通过逆推我们可以看到其学习到的图像 线性分类器的问题:
- 无法解决一些通过一条线性划分无法解决的问题