php发展

首页 » 常识 » 常识 » 滴滴在招聘,以及司乘防疫口罩识别技术的系
TUhjnbcbe - 2020/10/27 11:36:00
“数据猿年度重磅活动预告:年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,尽情咨询期待!

大数据产业创新服务媒体

——聚焦数据·改变商业

桔妹导读:年新春伊始,新冠疫情爆发。为有效预防感染,保障司乘生命安全,滴滴利用在计算机视觉技术的多年研发积累,研制了口罩识别防疫系统。本文重点介绍口罩识别系统的框架、原理和方法,同时也介绍图像技术团队今年在国际计算机视觉领域的比赛进展。

1.口罩识别技术????年新春伊始,新冠疫情席卷全国。为有效预防感染,防止疫情持续扩散,滴滴投入了多种AI视觉抗疫措施,督促司机进行积极防疫,保障司机自身和乘客的健康安全,包括口罩佩戴识别、视频消*喷洒识别、消*贴纸识别、图片消*壶识别等,解决了出行运输行业面临车辆地域分布广泛、活动频率较高、活动时间跨度较长、司机数量庞大等现实问题,其中口罩佩戴识别最为典型。口罩佩戴识别技术方案基于特征融合和分割监督相结合的人脸检测(DFS--DetectionwithFeatureFusionandSegmentationSupervision)和口罩属性识别两大模块组成,前者实现在图像中准确定位人脸区域的功能,后者在单个人脸区域的基础上利用注意力学习进一步分析人脸属性,从而判断人脸是否佩戴口罩。测试结果表明,上述技术方案在人脸佩戴口罩识别任务中,图像级准确率超过99.50%,可快速定位未按要求佩戴口罩的重点人员,有效解决了24小时复杂光照、多种类型遮挡、人脸姿态变化、不同距离人脸尺度、口罩款式类型多样化等实际应用中的难题,灵活适应不同场景环境。口罩佩戴识别是一种人脸属性识别,它包括人脸检测技术和口罩属性分类技术两部分。由于人脸的特殊性,在目标检测技术的基础上发展了一系列的人脸检测算法。而口罩佩戴识别可通过目标分类技术来实现。因此人脸佩戴口罩识别涉及目标检测技术和分类技术。目标检测技术是指从一幅场景中找出所有感兴趣的目标,确定它们的位置和类别,包括了检测和分类两个过程。近几年来深度学习技术飞速发展,目前基于深度学习技术的目标检测算法分为两类:一类是双阶段目标检测算法,另外一类是单阶段目标检测算法。常见的双阶段目标检测算法包括FasterR-CNN[1]、R-FCN[2]和FPN[]等。该类算法在基于特征提取的基础上,有独立的网络分支生成大量的候选区域,然后对这些候选区域进行分类和回归,确定目标的准确位置框和类别。对于单阶段目标检测算法,常见的有包括YOLOV[4]、SSD[5]和RetinaNet[6]等。该类算法直接生成候选区域的同时进行分类和回归。通常情况下,双阶段目标检测算法精度更高,而单阶段的目标检测算法速度更快。人脸检测是目标检测的一种特例。对于任意一幅输入的图像,采用一定的算法或策略对其进行搜索以确定其中是否含有人脸,如果存在人脸,则返回所有人脸的位置等信息。目标检测一般会检测多个类别,而人脸检测是二类问题,只检测人脸和背景两类。针对人脸类别的单一性、以及人脸的五官特殊性,在目标检测算法的基础上,发展出了大量的人脸检测算法,包括MTCNN[7]以三个级联网络实现快速人脸检测,并利用图像金字塔实现不同尺度人脸的检测、FaceR-CNN[8]基于FasterR-CNN框架进行人脸检测、SSH[9]提出了对不同深度的卷积层分别进行检测以实现多尺度、FAN[10]提出了基于锚点级的注意力机制、PyramidBox[11]利用人脸的上下文信息提高遮挡人脸检测,即结合人头、身体等信息。上述算法主要解决不同于其他领域的人脸多尺度、遮挡等问题[12][1]。目标分类技术按照目标的性质、用途等进行归类。基于深度学习的分类技术包括骨干网络和损失函数两部分。骨干网络有AlexNet[14]使用层叠的卷积层以及Dropout、Relu等;VGG-Net[15]使用更深的网络结构,探索了深度与性能的关系;GoogLeNet[16]在增加网络深度和宽度的同时减少参数,在多个尺寸上同时进行卷积再聚合,并使用1×1的卷积来进行升降维;ResNet[17]设计了一种短连接的结构,解决了神经网络加深后的退化问题。我们提出了一种基于CNN的人脸佩戴口罩识别算法,包括人脸检测和佩戴口罩识别两部分,如图1所示,人脸检测模块首先对输入的图像进行人脸检测;佩戴口罩识别模块对检测到的人脸区域按照一定比例扩展,并裁剪出人脸区域子图像,采用图像分类的方法,对整个人脸区域子图像进行二分类,从而得到是否佩戴口罩的识别结果。图1人脸佩戴口罩识别整体框图人脸检测模块使用了DFS(DetectionwithFeatureFusionandSegmentationSupervision)[18]算法。该算法以卷积神经网络中的特征融合为基础,利用特征融合金字塔[19]结构同时以空间和通道注意力学习的方式融合高低层特征,以防止高层特征图上的语义信息覆盖低层特征图上的细节信息,从而使语义和细节相互补充,在不失细节信息的同时将语义信息作为上下文线索从而能够增强低层特征。如图2所示,输入图像经过网络逐层提取特征后,自最高层向下,相邻层间通过特征融合模块进行特征融合后,再和低一层的特征进行融合,依次类推。融合后的各层特征被Detection模块用于对应尺度人脸的检测。图2DFS人脸检测算法整体架构图此外,DFS算法以标注的人脸框作为人脸检测候选框的弱监督信息,具体到每一层则是标注框在相应层所对应的感受野,这样使得人脸检测框和分割框在每一层具有相同的尺度。分割层有效帮助网络快速学习到人脸区域的特征信息,同时让分类和回归更容易收敛。在推理时候,分割分支会被去除,这样不会增加模型的参数和计算量。另外直接采用人脸标注框作为分割信息,无需额外标注,虽然人脸标注框中会含有一定的背景信息,但相对于其中占主导的人脸区域,其影响可以忽略不计。相对于其他算法利用分割预测图在主网络中针对特征信息进行引导,弱监督方式不会引入多余的参数和运算。年4月DFS人脸检测算法在WIDERFACE官方验证集和测试集上进行了评测。WIDERFACE是目前业界公开的数据规模最大、检测难度最高的人脸检测数据集之一,由香港中文大学于年建立,共包含2,20张图像和9,70个人脸标注。其中,40%的数据为训练集(Training)、10%的数据为验证集(Validation)、50%的数据为测试集(Testing)。每个集合中的数据根据人脸检测的难易程度分为“Easy”、“Medium”、“Hard”,如图所示[20]。由于汇集了人脸尺寸大小变化、拍照角度引起的人脸姿态变化、不同程度的人脸遮挡、表情变化、光照强弱差异以及化妆等多种影响因素,该数据集在全球人脸检测领域极具挑战性,吸引了多家国内外科技巨头及高校院所在这个数据集上进行算法效果的验证。图WIDERFACE人脸检测评测集在“Easy”、“Medium”和“Hard”三个验证子集中,DFS算法AP性能分别达到96.9%、95.9%和91.2%。在“Easy”、“Medium”和“Hard”三个测试子集中,性能分别达到96.%、95.4%和90.7%。DFS算法在六项评估结果中取得五项第一、一项第二的成绩[21-22],因此它可以很好地解决实际环境下人脸存在各种姿态变化问题,如侧脸、低头、仰头,以及人脸遮挡和不完整等,同时可有效解决不同光照条件的影响,如强光、弱光、反光等,另外对不同尺度人脸的检测有一定的鲁棒性。通过人脸检测获得图像中的人脸区域后,需要识别当前人脸区域是否佩戴口罩。口罩属性识别模型是基于ResNet50改进的,加入了注意力学习机制,进一步强化口罩区域,并针对损失函数进行了优化等。图4所示为佩戴口罩识别的模型结构示意图,图像经过输入层的数据预处理后,依次经过模型的block1、block2、block提取特征,并和attention层的权重相乘后经过block4和block5提取特征后输出分类结果。在输入层的数据预处理中,提出了人脸区域扩展的方法,即针对人脸检测获得的边界框进行一定比例的扩展。这是因为实际人脸检测中,由于受到多种复杂条件的影响,检测框少数情况下会存在一定程度的坐标误差。通过边界框扩展不但可以消除检测误差,还能够包含更多的人脸佩戴口罩区域,如耳带等,从而提高模型的分类能力。实验中采用了宽高等比例扩展,扩展的比例是20%。另外,针对口罩在人脸中的佩戴位置固定的特性,模型中加入注意力学习机制,从而提高针对困难样本的检测能力。如图4所示,在ResNet50网络模型的block层后加入了attention网络层,引导模型重点
1
查看完整版本: 滴滴在招聘,以及司乘防疫口罩识别技术的系