基于空间聚合加权卷积神经网络的力触觉足迹识别 [PDF全文]
(1安徽大学电子信息工程学院, 合肥 230601)

为了提高力触觉足迹识别的准确率,提出一种基于空间聚合加权注意力机制的足迹识别算法.首先,采用压力足迹采集器采集并构建一个包含100人2 000幅力触觉足迹图像的数据集; 然后,采用VGG19卷积神经网络预训练模型提取特征,为获取特征图中足迹压力分布感兴趣区域,设计一种空间聚合加权模块(SAWM),该模块专注高响应区域从而提取足迹中显著区域局部特征,并与输入特征图加权融合,保留显著性特征,抑制不重要特征; 最后输出的特征经过平均池化在全连接层实现力触觉足迹的识别. 试验结果表明,所提算法准确率达到了91.20%,优于其他注意力机制算法以及传统的足迹识别算法. 采用空间聚合加权注意力机制网络模型能够有效进行足迹识别,为身份识别提供技术支撑.

Force-tactile footprint recognition based on spatial aggregation weighted convolutional neural network
Bao Wenxia1,Qu Jinjie1,Wang Nian1,Tang Jun1,Lu Xilong2
(1School of Electronic Information Engineering, Anhui University, Hefei 230601, China)(2Institute of Forensic Science of China, Ministry of Public Security, Beijing 100038, China)

To improve the accuracy of force tactile footprint recognition, a footprint recognition algorithm based on spatial aggregation weighted attention mechanism was proposed. First, a pressure footprint collector was used to collect and construct a data set containing 2 000 force tactile footprint images of 100 people. Then, the VGG19 convolutional neural network pre-training model was used to extract features. To obtain the interest region of the footprint pressure distribution in the feature map, a spatial aggregation weighting module(SAWM)was designed to focus on the high response region and extract the local features of the salient region in the footprint, and then the local features were integrated with the input feature map to preserve the salient features and suppress the unimportant features. Finally, the output features were averagely pooled, and the force tactile footprint was recognized in the fully connected layer. Experimental results show that the accuracy of the proposed algorithm reaches 91.20%, it is better than other attention mechanism algorithms and traditional footprint recognition algorithms. The spatial aggregation weighted attention mechanism network model can effectively perform the footprint recognition and provide a technical support for the identity recognition.

引言

在案件侦查中,现场足迹是最有价值的线索之一,为侦查犯罪案件提供更多的有效线索.足迹由对象脚型和骨骼结构来决定,具有特定性和稳定性的特点[1-2]; 同时足迹是来源于对象的整体行为,不仅反映对象的生理特征,还反映对象的行为特征,与对象的身份特点以及行走习惯等相关联,医学研究表明足迹压力数据具有唯一性和独特性[3-4].但是由于足迹易受心理活动、环境等影响,表现出一定的变形性[5],使得足迹识别难度加大,具有一定的困难和挑战.近年来,国内外研究人员利用图像处理、模式识别等技术对足迹的特征提取和识别进行了研究.例如,Kulkarni等[6]使用摄像机拍摄30人足底图像(每人1幅),并根据足弓水平最小截距、足弓内侧最大距离、痕迹指数和痕迹几何指数4种图像参数提取特征,这4种特征提取方式侧重足迹的形态特征、忽视痕迹的内部信息而具有一定的局限性.Osisanwo等[7]使用捺印技术在纸板上印出足迹,利用图像分割的思想,把足迹图像分割成前脚、中间和后脚,比较3个部分的压力面积和压力值标准偏差并进行图像匹配,但图像在去噪过程中过滤掉大部分压力信息,提取的特征较少.Khokher等[8]通过影像扫描仪获取了21人足底图像(每人5幅),使用主成分分析(principal component analysis,PCA)和独立成分分析(independent component analysis,ICA)线性投影技术提取足底的纹理和形状特征来进行足迹识别.Heydarzadeh等[9]使用压力传感器平面板采集35人足迹数据,获取每帧图像,每帧图像叠加合成一幅融合图像,使用支持向量机(support vector machine,SVM)对足迹图像分类识别,试验结果准确率较高.Wang等[10]通过光学足迹采集器获取480人共19 200幅图像数据,提出了用几何形状谱(geometrical shape spectrum representation,GSSR)和压力径向梯度图(pressure radial gradient map,PRGM)表示足迹特征,用区域置信度的方法计算任意2个脚印之间的相似度并进行足迹识别.

国内外对足迹的研究起点虽然比较早,但进展均比较缓慢.随着深度学习的快速发展,卷积神经网络(CNN)能够提取图像深层特征并且有广泛的应用.例如,Simonyan等[11]提出VGGNets网络,提取图像特征并且能够分类识别.Lin等[12]提出一种双线性(bilinear)网络模型,该网络中模型先定位目标,对目标提取2种不同特征再进行融合.由于不同对象的足迹图像在形态、纹理以及压力分布上类间差异微小,因此足迹识别可看作细粒度图像识别问题,细粒度图像的识别需要在网络中定位关键区域和提取关键区域显著特征.例如,Hu等[13]设计了一种注意力机制模块SENet,对网络中特征图分配权重参数,强调重要信息,抑制无关信息.Woo等[14]对SENet做出改进,提出一种新的注意力机制模块CBAM(convolutional block attention model),将注意力机制同时应用在空间维度和通道维度上,提高了模型识别准确率.

现有的关于足迹方面的研究受到数据样本的限制,也没有公共的足迹图像数据集,因此本文利用压力足迹采集器,设计了人自然行走下的基于力触觉的足迹图像的采集流程,建立了100人2 000幅力触觉足迹图像数据集.受到深度学习卷积神经网络以及注意力机制的启发,本文针对足迹图像压力分布的特点,设计了一种空间聚合加权模块(spatial aggregation weighting module,SAWM),对卷积层特征图加权,从中提取重要的局部区域细节特征,并添加到VGG19网络中进行力触觉足迹图像的识别,取得了较高的识别精度,相关的研究成果可以为足迹的研究及应用提供理论基础和技术支撑.

1 力触觉足迹数据获取及预处理1.1 压力足迹采集器

本文采集数据的仪器是单板压力足迹采集器.从生物力学角度来看,足迹采集器可以获取采集者自然行走过程中的压力变化以及足迹特征等数据信息.采集频率达到100 Hz,分辨精度为25点/cm2,可满足人体运动所需的数据.相比于传统油墨捺印数据,压力采集器生成的数据完整,图像压力分布清晰,采集的软件界面如图1所示,采集图像分辨率为150×250像素.足迹图像中颜色越深表示该区域压力值p越大,红色区域表示压力值p较大的重压区.

图1 压力采集软件界面

图1 压力采集软件界面

1.2 压力足迹数据采集流程

本次试验共采集100人,其中男性70人,女性30人,测试对象行走正常,均无足部疾病史.数据采集前,首先在系统录入被采集人员的身高、体重等个人基本信息.为了采集规范,被采集人员在行走过程中要自然放松,同时要保证被采集人员的脚落在压力采集仪器上时不能随意抖动,以避免不必要的噪声干扰.正式采集时被采集人员在赤足条件下,自然行走通过采集器,采集器便会自动采集行走时留下的压力值并形成赤足力触觉足迹图像.被采集人员以同样条件在采集器上来回行走10次,便可采集到每人左、右脚各10幅足迹图像,总共采集100人共计2 000幅力触觉足迹图像,其中左脚、右脚各有1 000幅图像.

图2展示了4个人的部分力触觉足迹图像,其中每一行从左到右依次为同一个人的5幅左脚和5幅右脚足迹图像.足迹图像颜色越深压力值就越大,从图中可以看出不同人的足迹图像之间在形态、压力分布等方面具有很大的相似性,而同一人的足迹图像之间又具有很大的差异性,这些都给足迹的识别带来了一定的困难和挑战.

图2 部分力触觉足迹图像

图2 部分力触觉足迹图像

1.3 数据预处理

数据增广是深度学习中常用的数据处理方法之一,其目的是增加训练数据量,使数据多样化,从而提高模型的泛化能力和鲁棒性,一定程度上避免过拟合现象的出现.首先对所采集的足迹图像进行中值滤波以消除椒盐噪声,然后将数据集中的60%(1 200幅)图像选为训练集,然后通过旋转、上下镜像、左右镜像、平移、亮度等方式将训练集图像增广至7 200幅.

2 基于空间聚合加权模块的力触觉足迹识别

足迹能反映人的生理和行为特征,根据人的行为习惯和行走姿态,同一人的足迹中压力分布具有特定性和稳定性,但受行走姿态和心理变化的影响,足迹具有一定的多变性.本文根据足迹图像的特点设计了一种空间聚合加权模块,提取足迹中重要的显著区域局部特征,同时结合VGG19网络实现足迹的识别.

2.1 空间聚合加权模块

图3为空间聚合加权模块的网络结构图.该模块首先将卷积网络得到的d个通道特征图聚合成一个大小为h×w的加强特征图A,A的公式为

A=∑dn=1Sn(1)

式中,Sn为第n个通道的特征图.对加强特征图求平均值得到阈值(-overa),即

(-overa)=(∑hi=1wj=1A(i,j))/(hw)(2)

式中,A(i,j)为A中第i行第j列位置的值.高于阈值的特征值置1,低于阈值的全部置0,形成一幅由0或1构成的掩模图M,掩模图计算公式如下:

M(i,j)={1 A(i,j)>(-overa)

0 其他(3)

式中,M(i,j)为掩模图M第i行第j列位置的特征值.掩模图与输入特征图加权融合,保留信息量较大的特征,抑制不重要特征,得到突出显著区域的加权特征图T,计算公式如下:

Tn=SnM n=1,2,…,d(4)

式中,Tn表示第n个加权特征图.最后再经过平均池化层,保留主要特征同时减少参数,对特征降维,提高模型泛化能力.

图3 空间聚合加权模块

图3 空间聚合加权模块

2.2 基于空间聚合加权模块的VGG网络结构

VGG19网络结构中含有5组卷积,每组卷积后进行最大池化,最后经过全连接层输出结果.为进一步提高VGG19网络在细粒度图像识别的准确率,在原有的VGG19网络基础上添加空间聚合加权模块,对网络提取的特征赋予权值,得到更有效的特征,提高模型的识别准确率,网络结构如图4所示.

图4 网络整体结构图

图4 网络整体结构图

输入大小为H×W像素的图像I,网络卷积层可表示为h×w×d的三维矩阵,经过数个卷积层得到最后一层卷积conv5_4,并对其做最大池化处理得到pool5层,pool5特征图通道数为512,把特征图深度聚合成一个特征图,即h×w×d的3D特征图聚合成一个h×w的2D特征图.2D特征图上有h×w个激活响应,(i,j)表示激活响应较高的特定位置,响应较高区域成为主要目标对象可能性更大.从力触觉足迹的图像来看,压力值越大的区域,对应的(i,j)点像素值越大.因此计算加强特征图A中所有位置的平均值(-overa),其中激活响应高于(-overa)的位置为主要对象,用数值1表示,低于(-overa)的位置为背景噪声,用数值0表示,这样便可得到掩模图M.再将M与pool5层的特征图相乘获取最优的特征图,最后经过平均池化,在全连接层中分类识别.

在网络训练过程中为了防止网络模型过拟合,在ADAM优化器上添加L2正则化参数,L2范数公式如下:

‖X‖2=(∑nm=1x2m)1/2(5)

式中,‖X‖2为L2范数; xm为权值向量.线性回归L2正则化损失函数公式如下:

Lloss=‖y-(^overy)‖2+λ‖X‖22(6)

式中,y为目标值;(^overy)为预测值; ‖X‖22为L2正则化项,可看作是损失函数的惩罚项; λ为权重衰减系数,权衡原始损失函数与L2正则项的比重.

2.3 特征可视化

将力触觉足迹图像经过空间聚合加权模块的VGG19网络过程中生成的特征进行可视化,如图5所示,其中每一行分别为足迹原始图像、conv5卷积层可视化、pool5池化层可视化以及SAWM注意力层可视化.从图中可以看出,卷积层输出的特征图中存在较强响应的噪声干扰,而通过空间聚合加权模块对特征图进行加权,在突出显著区域的同时去除了强响应的噪声干扰.

图5 特征图可视化

图5 特征图可视化

3 试验3.1 试验环境及评价指标

试验所用计算机带有2块NVIDIA 2070ti 显卡,同时在Lunix操作系统下进行.网络模型均在pytorch中搭建,使用ADAM优化器进行训练,学习率设置为1×10-5,L2正则化参数设置为1×10-4,损失函数为Cross Entropy Loss,经过2 000次迭代后完成训练.每次迭代的批处理大小均设置为32,测试的批次设置为40.试验结果采用准确率作为足迹识别的评价指标,准确率指的是分类正确的足迹样本占总样本数的比例.

3.2 试验结果及分析

为了验证不同的池化效果对空间聚合加权模块的影响,本文做了4组对比试验,分别在空间聚合加权模块输出增强特征图后面不添加池化层、添加最大池化、平均池化以及级联平均池化和最大池化,然后利用基于空间聚合加权模块的VGG19网络对力触觉足迹图像进行识别.同时,在数据加载中分别将图像尺寸调整为224×224像素和112×224像素,试验结果如表1所示.

表1 空间聚合加权模块不同方法的准确率

表1 空间聚合加权模块不同方法的准确率

表1可以看出,在VGG19网络上添加的SAWM不添加池化层准确率达到了72.16%,添加最大池化层准确率提高到了78.43%,采用平均池化层准确率最高,达到了91.20%.另外图像尺寸为112×224像素时效果最好,因此,本文后续试验实用图像尺寸为112×224像素,并采用在SAWM中添加平均池化层的网络模型.

3.3 不同网络模型对比试验

为了验证本文算法的有效性,与常用的VGG19以及ResNet50网络进行了对比试验,同时还在VGG19网络中分别添加SENet注意力模块和CBAM注意力模块进行对比试验,试验结果还添加了精确率、召回率和F1分数作为评价指标,其中精确率计算的是实际为正样本数量占被预测为正样本数量的比例,召回率计算的是预测为正样本数量占实际为正样本数量的比例,F1分数是精确率和召回率的调和平均值,评价指标数值越高,网络模型效果越好,结果如表2所示.

表2 不同算法的识别结果

表2 不同算法的识别结果

表2可以看出,基础网络VGG19较ResNet50识别率稍高,AlexNet[15]网络和OverFeat网络[15]的识别效果比基础网络效果更好,在VGG19网络分别添加SENet注意力机制模块和CBAM注意力机制模块后识别准确率分别提高至88.95%和80.12%,而本文添加的空间聚合加权模块在识别准确率上进一步提高至91.20%.同时本文算法的精确率、召回率和F1分数结果均高于其他算法.

图6给出了本文算法和其他几种VGG19网络的损失曲线图.从图中可以看出本文网络模型收敛速度最快,随着迭代次数的增加,损失值迅速趋于零,并且能保持稳定.当迭代次数达到20后,模型趋于稳定,迭代达到60次其他模型才趋于稳定.

图6 不同网络模型损失曲线图

图6 不同网络模型损失曲线图

3.4 与传统特征算法的比较

传统的足迹识别算法先提取图像的特征,然后利用分类器进行足迹的识别.本文利用几种常用的算法提取足迹图像的特征,然后利用经典的SVM分类器进行识别,并与本文算法识别结果进行对比.图7给出了形状特征(shape)[16]、HOG(histogram of oriented)[17]特征以及LPQ(local phase quantization)[18]特征在 SVM分类器下的识别结果.shape特征提取足迹的形状特征,由于不同人足迹图像的轮廓差异相似度很大,所以单纯的形状特征识别准确率较低.而LPQ特征是一种在频域内描述图像纹理特征的算子,由于不同人的足底重压面分布不同,因此识别效果在传统算法中相对较好.而本文在利用卷积神经网络提取到的足迹图像深度特征基础上,设计空间聚合加权模块,对卷积层特征图加权,从中提取重要的局部区域细节特征,识别准确率比传统算法高出近20%.

图7 几种算法的准确率对比

图7 几种算法的准确率对比

4 结论

1)为了有效提取力触觉足迹显著性区域特征从而提高足迹识别的准确率,提出了一种基于空间聚合加权注意力机制的足迹识别算法.该算法利用VGG19网络提取足迹基本特征,并设计空间聚合加权模块SAWM对特征加权优化,与常用的VGG19、ResNet50、AlexNet等网络及其添加SENet、CBAM注意力模块后的网络进行对比,本文算法的识别准确率最高,能够达到91.20%.

2)本文算法为保留显著特征、降低特征维度,在空间聚合加权模块对特征加权优化后添加平均池化操作,试验结果表明,与不添加池化层足迹识别准确率72.16%及添加最大池化层准确率为78.43%相比,本文采用平均池化层准确率最高.

3)本文基于空间聚合加权卷积神经网络的力触觉足迹识别算法与传统的基于手动特征提取的分类识别算法相比,识别准确率高出近20%,验证了本文算法在足迹识别中的有效性.

参考文献