孪生网络与目标跟踪（1）-- 孪生网络的基本结构

Sep 03, 2018 原创文章

基于孪生网络的目标跟踪算法研究笔记

分享到：

请保证您的浏览器支持MathJax插件，以免数学公式无法显示

Yann LeCun 在他2005年的论文Learning a Similarity Metric Discriminatively, with Application to Face Verificatio中提出使用孪生网络做人脸鉴定。

核心思想

这种方法的核心思想在于：通过训练一个网络得到一个函数，这个函数可以将输入映射到目标空间，然后在目标空间中计算输入空间的”语义（semantic）”距离，如使用 $L_1$范数。整个网络的学习过程就是将同一个人的人脸图像的输出最小化，不同的人的人脸图像输出最大化。将原始图像映射进入目标空间的工具就是一个对几何畸变（geometric distortions）具有鲁棒性的卷积网络。更确切的说就是有一系列的函数$G_W(X)$使用W作为参数，我们的目标就是寻找合适的参数W，使得相似矩阵$E_W(X_1,X_2) = ||G_W(X_1) - G_W(X_2) ||$ 在$X_1$和$X_2$属于同一分类（即：人脸图像属于同一个人）时计算得到的结果最大，反之则最小。根据孪生网络的特点，对于输入$X_1$和$X_2$其对应的G和W是相同的。

设计目标

设计的可训练系统要在训练时能够同时最小化错误接受率（false accepts）和错误拒绝率（false reject）。同时可将原始图片（raw images）映射到低维空间，以此计算两个输入的相似度距离（即：相似度度量 similarity metric）。

孪生网络结构

孪生网络

孪生网络结构

整体框架

$X_1$和$X_2$分别为两个待学习的样本对，Y是样本对的标签（$X_1$ 与 $X_2$ 属于同一个人时 Y为0，反之为1）。$G_W(X_1)$和$G_W(X_2)$为输入的原始图像映射到的低维度空间。而$E_W(X_1,X_2) = ||G_W(X_1) - G_W(X_2) ||$表示两者的相匹配的程度。而W作为共享参数则是网络需要学习的对象。

假设存在 条件1 ：$存在m>0,使得E_W(X_1,X_2) + m < E_W(X_1,X_2’)$，则可以称网络为理想方式（desirable manner），在这里的m称为系统的边缘（margin）。

对比损失函数

假设网络的损失函数由输入决定，而所有的参数间接的由E决定，所以损失函数的形式如下：

$\cal{L} \mathrm{(W) = \sum_{i=1}^P L(W,(Y,X_1,X_2)^i)}$ $L(W,(Y,X_1,X_2)^i) = (1-Y)L_G (E_W(X_1,X_2)^i) + YL_I(E_W(X_1,X_2))$

其中：$(Y,X_1,X_2)^i$表示第i个样本，包括图像对和标签。$L_G$表示正样本对（genuine pair）的部分，$L_I$表示负样本对（impostor pair）的部分。

对于$L_G$和$L_I$的设计思路应当是对正样本对减少L（损失，Loss），对负样本对增加损失。一个简单的方法就是对$L_G$单调增加，对$L_I$单调减少。

卷积网络

为了将原始图像映射到低维度空间，系统中采用了两个相同且共享权值的卷积网络。卷及网络具有可训练、多层次、非线性等特点。通过一系列的方法可以实现像素级的处理并且可以学习低级特征和高级表示。卷积网络采用端到端的训练方法，对原始图像映射以得到输出。

主要优点:

可以学习得到最优的位移不变局部特征检测器

可以构建对于输入图像几何失真的鲁棒表示

输入：

一个图像对和一个标签。

网络层次:

$C_x$:表示卷积层
$S_x$:表示下采样层
$F_x$:表示全连接层

网络的基本架构为：$C_1 –> S_2 –> C_3 –> S_4 –> C_5 –> F_6$ 这个网络结构和LeCun在1998年在《Gradient-Based Learning Applied to Document Recognition》中提出的网络LeNet-5大致相同。

LeNet-5

网络的中间状态

$C_1$ 卷基层特征映射层大小15@50×40 卷积核大小7×7
$S_2$ 下采样层特征映射层大小15@25×20 视野大小2×2
$C_3$ 卷积层特征映射层大小45@20×15 卷积核大小6×6
$S_4$ 下采样层特征映射层大小45@5×5 视野大小4×3
$C_5$ 卷积层特征映射层大小250@1×1 卷积核大小5×5
$F_6$ 全卷机层单元数 50

参考资料：

Siamese network 孪生神经网络–一个简单神奇的结构 : https://zhuanlan.zhihu.com/p/35040994

Chopra S, Hadsell R, LeCun Y. Learning a similarity metric discriminatively, with application to face verification[C]//Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. IEEE, 2005, 1: 539-546.

Bromley J, Guyon I, LeCun Y, et al. Signature verification using a” siamese” time delay neural network[C]//Advances in neural information processing systems. 1994: 737-744.

Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//European conference on computer vision. Springer, Cham, 2016: 850-865.

siamese(孪生) 网络 ：https://blog.csdn.net/qq_15192373/article/details/78404761

LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

# 孪生网络, 目标跟踪 >>

打赏

感谢您的支持，我会继续努力的!

长按识别二维码或打开支付宝扫一扫完成打赏
或使用<支付宝链接>打赏

关闭

分享到：