毕业论文基于深度学习的人脸遮挡检测技术研究内容摘要:
第 5 章:结论与展望,总结了本文的主要工作,指出了系统设计部分存在的不足和有待改进的地方,并对下一步工作进行了展望,提出了有待解决的问题。 浙江工业大学硕士学位论文 9 第 2章 卷积神经网络介绍 卷积神经 网络 (Convolutional Neural Networks, CNN)是一种深层神经网络模型。 卷积网络最初是受视觉神经机制的启发而设计的,是为识别二维形状而设计的一个多层感知器。 这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。 1962 年 Hubel 和 Wiesel[41]通过对猫视觉皮层细胞的研究,提出了感受野的概念; 1984 年 Fukushima[42]基于感受野概念提出的神经认知机模型,可以看作是卷积神经网络的第一个实现网络,也是感受野概念在人工神经网络领域的首次应用。 神经认知机将一 个视觉模式分解成许多子模式,然后进入分层式相连的特征平面进行处理,它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。 神经认知机能够利用位移恒定能力从激励模式中学习,并且可识别这些模式的变化。 在其后的应用研究中, Fukushima将神经认知机主要用于手写数字的识别。 随后,国内外的研究人员提出了多种卷积神经网络形式,在邮政编码识别、车牌识别和人脸识别等方面得到了广泛的应用 [4749]。 卷积神经网络作为深度学习框架是基于最小化预处理数据而产生的,它通过共享局部权值有效降低了网络结 构的复杂度,具有局部连接和权值共享特性。 卷积神经网络 ( CNN)已经是现代智能识别语音和图像等信息的研究热点。 它的局部连接和权值共享的网络结构使之更类似于生物神经网络,降低了网络模型的复杂度(对于很难学习的深层结构来说,这是非常重要的),减少了权值的数量。 尤其在多维图像和大图像中该优点表现最为突出 , 可以直接将图像输入到网络中,不需要做更多的麻烦的传统特征提取和数据重建。 卷积神经网络 CNN CNN 是第一个真正成功训练多层网络结构的学习算法。 它利用权值共享来达到减少学习参数以用来提高 Back Propagation (BP)算法的训练性能。 CNN 是一个最小化预处理要求下的深度学习框架。 在 CNN 中,图像的一部分(局部感受区域)作为层级结构的最 底 层的输入,信息再依次传输到不同的层,每层通过一浙江工业大学硕士学位论文 10 个数字滤波器去获得观测数据的最显著的特征。 这个方法能够获取对平移、缩放和旋转不变的观测数据的显著特征,因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征,例如定向边缘或者角点。 卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。 图 21 卷积神经网络的概念示范 Fig 21 Convolutional Neural Networks (CNN) 图 21 展示了卷积神经网络概念示范: 输入图像通过和三个可训练的滤波器和可加偏置进行卷积,卷积后在 C1 层产生三个特征映射图,然后特征映射图中每组的四个像素再进行求和 、 加权值 、 加偏置,通过一个 Sigmoid 函数得到三个S2 层的特征映射图。 这些映射图再进过滤波得到 C3 层。 这个层级结构再和 S2一样产生 S4。 最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。 卷积层 神经网络中的 每个层有多个 特征映射 ,每个 特征映射 通过一种卷积滤波器提取输入的一种特征,然后每个 特征映射 有多个神经元。 卷积运算一个重要的特点就是,通过卷积运算,可以使原信号特征增强,并且降低噪音。 假设第 l 层为卷积层,则第 l 层第 j 个 特征映射 的计算公式如 ( )所示。 11( * )jl l l lj i ij jiMx f x k b ( ) 浙江工业大学硕士学位论文 11 上面的 *号实质是让卷积核 k 在第 1l 层所有关联的 特征映射 上做卷积运算,然后求和,再加上一个偏置参数,取 Sigmoid 得到最终激励值的过程。 子采样层 对于子采样层来说, 有 N 个输入 特征映射 ,就有 N 个输出 特征映射 ,只是每个输出 特征映射 都变小了。 采样公式如( )所示。 1( ( ) )l l l lj j j jx f d o w n x b ( ) down(.)表示一个下采样函数。 典型的操作一般是 在输入特征矩阵中不同nn 的块中取均值或最大值。 这样输出图像在两个维度上都缩小 了 n 倍。 每个输出 map 都对应一个属于自己的乘性偏置 和一个加性偏置 b。 稀疏连接 卷积网络通过在相邻两层之间强制使用局部连接模式来利用图像的空间局部特性,在第 m 层的隐层单元只与第 1m 层的输入单元的局部区域有连接,第1m 层的这些局部区域被称为空间连续的接受域。 可将这种结构描述如下: 设第 1m 层为视网膜输入层,第 m 层的接受域的宽度为 3,也就是说该层的每个单元仅与输入层的 3 个相邻的神经元相连,第 m 层与第 1m 层具有类似的链接规则,如图 22 所示。 图 22 稀疏连接示意图 可以看到 1m 层的神经元相对于第 m 层的接受域的宽度也为 3,但相对于输入层的接受域为 5,这种结构将学习到的过滤器限制在局部空间模式。 从图 22也可以看出,多个这样的层堆叠起来后,会使得过滤器逐渐成为全局的。 例如上图中第 1m 层的神经元可以对宽度为 5 的输入进行一个非线性的特征编码。 浙江工业大学硕士学位论文 12 权值共享 在卷积网络中,每个稀疏过滤器通过共享权值都会覆盖整个可视域,这些共享权值的单元构成一个特征映射, 如图 23 所示。 图 23 特征映射 Fig 23 Feature map 在图 23 中,有 3 个隐层单元,他们属于同一个特征映射。 同种颜色的链接的权值是相同的,可以使用梯度下降的方法来学习这些权值,只需要对原始算法做一些小的改动,这里共享权值的梯度是所有共享参数的梯度的总和。 一方面,重复单元能够对特征进行识别,而不考虑它在可视域中的位置。 另一方面,权值共享能更有效的进行特征抽取,因为它极大的减少了需要学习的自由变量的个数。 通过控制模型的规模,卷积网络对视觉问题可以具有很好的泛化能力。 Softmax 回归 Softmax 回归其实就相当于多类别情况下的逻辑回归,对比如下。 ( 1)逻辑回归的假设函数( hypothesis) 1() 1 e x p ( )Thx x ( ) 公式( )给出了逻辑回归的假设函数。 整个逻辑回归模型的参数就是 ,*h 是 Sigmoid 函数,输出在 0~ 1 之间,一般作为二分类算法。 对于具体的问题,找出最合适的 便是最重要的步骤,这是最优化问题。 一般通过定义代价函数,然后最小化代价函数来求解,逻辑回归的代价函数如公式( )所示。 ( ) ( ) ( ) ( )11( ) [ l o g ( ) ( 1 ) l o g ( 1 ( ) ) ]m i i i iiJ y h x y h xm ( ) 最小化 J ,一般采用梯度下降算法,迭代计算梯度并更新 。 ( 2) Softmax 的假设函数 浙江工业大学硕士学位论文 13 ()1()2()()( ) ( )( ) ( )()1( ) ( )( 1 |。 )( 2 |。 ) 1()( |。 )TiTiTijTikxiiii xik xjii xep y xp y x ehxep y k x e ( ) 公式( )给出了 Softmax 的假设函数。 逻辑回归里将 *x 作为 sigmoid函数的输入,得到的是 0 或者 1,两个类别。 而 Softmax 有 k 个类别,并且将 *x作为指数的系数,所以就有 1*xe 至 *k xe 共 k 项,然后除以它们的累加和,这样做就实现了归一化, 使得输出的 k 个数的和为 1,而每一个数就代表那个类别出现的概率。 因此, Softmax 的假设函数输出的是一个 k 维列向量,每一个维度的数就代表那个类别出现的概率。 Softmax 的代价函数如公式( )所示: ()()()11 11( ) 1 { } l og TijTilxmkik xij leJ y jm e ( ) 本质上跟逻辑回归是一样的,采用代价函数 NLL,如果加上权重衰减项(正则化项),则为: ()()( ) 21 1 1 111( ) 1 { } l og2TijTilxm k k niijk xi j i jleJ y jm e ( ) 最小化代价函数,同样可以采用简单而有效的梯度下降,需要提到的是,在程序实现中,一般采用批量随机梯度下降,即 minibatch Stochastic Gradient Descent ( MSGD),简单来说,就是每遍历完一个 batch 的样本才计算梯度和更新参数,一个 batch 一般有几十到几百的单个样本。 Caffe 架构 Caffe[51]是一个清晰而高效的深度学习框架,在处理图像方面有着独具一格的优势,其作者是博士毕业于 UC Berkeley的 贾扬清 ,目前在 Google工作。 Caffe[40]是纯粹的 C++/CUDA 架构,支持命令行、 Python 和 MATLAB 接口;可以在 CPU和 GPU 直接无缝切换。 浙江工业大学硕士学位论文 14 Caffe 具有如下几个优势: (1)上手快: 模型与相应优化都是以文本形式而非代码形式给出。 Caffe[40]给出了模型的定义、最优化设置以及预训练的权重,方便立即上手。 (2)速度快: 能够运行最棒的模型与海量的数据。 Caffe 与 cuDNN 结合使用,测试 AlexNet 模型,在 K40 上处理每张图片只需要。 (3)模块化: 方便扩展到新的任务和设置上。 可以使用 Caffe 提供的各层类型来定义自己的模型。 (4)开放性: 公开的代码和参考模型用于再现。 (5)社会好: 可以通过 BSD2 参与开发与讨论。 Caffe[40]主要分为四个大类: Blob, Layer, Net, Solver。 这四个类复杂性从低到高,贯穿了整个 Caffe[40]。 (1)Blob:是基础的数据结构,是用来保存学习到的参数以及网络传输过程中产生数据的类。 (2)Layer:是网络的基本单元,由此派生出了各种层类。 修改这部分的人主要是研究特征表达 方向的。 (3)Net:是网络的搭建,将 Layer 所派生出层类组合成网络。 (4)Solver:是 Net 的求解,修改这部分人主要会是研究 DL 求解方向的。 浙江工业大学硕士学位论文 15 图 24 Caffe[40]工作流程 Fig 24 Flowchart of Caffe 图 24 展示了 Caffe[40]工作的流程。 基本上, Caffe[40]遵循了神经网络的一个简单假设 —— 所有的计算都是以层的形式表示的,每层做的事情就是获取一些数据,然后输出一些计算以后的结果。 比如说卷积,就是输入一个图像,然后和这一层的参数过滤器做卷积,然后输出卷积的结果。 每一层需要做两个计算:前向反馈是从输入计算输出,然后反向反馈是从上面给的梯度来计算相对于输入的梯度。 只要这两个函数实现了以后,就可以把很多层连接成一个网络,这个网络做的事情就是输入数据(图像或者语音或者其它的),然后来计算需要的输出(比如说识别的标签)。 在训练的时 候,可以根据已有的标签来计算损失和梯度,然后用梯度值来更新网络的参数。 这个就是 Caffe[40]的一个基本流程。 本章小结 卷积神经网络是一种深层神经网络模型,已经是现代智能识别语音和图像等信息的研究热点。 本章首先简要介绍了卷积神经网络 CNN 相关理论,然后介绍了本文所采用的深度学习工具 Caffe[40]的基本框架。 浙江工业大学硕士学。毕业论文基于深度学习的人脸遮挡检测技术研究
相关推荐
清理干净,那么在高温时,这些杂质自身或周围的物质发生缓慢的物理化学反应,不断的生成气体而形成锡槽气泡。 ③ 锡槽烘烤因素 锡槽烘烤过程中,如果锡槽槽底钢板温度太低,槽底砖和砖缝下部的易挥发性物质(诸如水分,油污,有机物杂质等)难以在短时间内完全排除,回锡投产后,当锡槽槽底温度升高时,这些易挥发性物质继续挥发而形成锡槽气泡。 ④锡的质量因素 浮法玻璃和产工艺设计 要求:用于锡槽的锡为加工纯锡
褐红色,由砾岩风化残积而成,原岩结构清晰,可见 26cm 的砾石,湿~很湿,硬塑状态。 捻面稍光滑,其干强度及韧性中等,摇震无反应。 层厚平均。 泥盆系( E)强风化砾岩⑩:红褐、紫红色,大部分矿物已风化变质,主要矿物成分为石英、长石及粘土矿物,泥质胶结,砾径一般为 ,最大达 9cm,砾状结构,层状构造,岩石节理裂隙较发育,合金钻具可钻进,岩芯呈土柱状夹砾石及碎屑状。 揭露厚度平均。
数量(座 ) 年供 水量(104m3) 数量(座 ) 年供 水量(104m3) 数量(口 ) 年供 水量(104m3) 长度(km) 年供 水量(104m3) 水田 (亩) 果园 (亩) 梯坪地(亩) 人口(人) 牲畜 (头) 1 350 8 4 0 0 6 350 350 120 0 2500 750 10 水土流失及水土保持现状 水土流失状况 流域 水土流失 类型 以水蚀为主
. 活塞故障 由于发动机的长期使用摩擦、磨损及安装、调整维修不当等原因造成发动机活塞销套磨损以后必然使连杆铜套与活塞之间的间隙增大,这将导致在内燃机运转时连杆与活塞销的冲击作用增强。 这种冲击激励的变化会影响活塞横向撞击气缸套并使机体的振动响应发生变化。 汽车发动机典型故障定性分析 曲柄连杆机构典型故障定性分析 连杆小头铜套磨损后使间隙增大,导致连杆与活塞的冲击作用增强
onfiguration [1]. In particular, for a motor built in a pletely sealed pressor, a shaft sensor is difficult to apply due to the degradation of the sensor reliability in high temperature and the need
表示要求 必须 满足尺度不变性、 位移不变性和旋转不变性 这 3 个特征。 尺度不变性是满足的。 在滤波提取算法中 ,位移不变性是通过确定指纹图像的中心参考点来实现的。 图像的旋转不变性可以通过在匹配阶段建立多角度旋转特征向量来实现。 滤波特征的提取算法包括 4 个步骤 : 一是: 确定指纹图像的中心参考点 , 以及要处理的指纹区域 , 记为 ROI 区域 ; 二是: 以参考点为中心 , 对