数据分析基础课程论文目标检测算法介绍和猜想姓名学号论文评分年月日目录引言目标检测算法两阶段算法算法其他的算法单阶段算法算法算法算法算法分析与比较模型猜想总结目标检测算法综述和猜想摘要随着深度学习的快速发展目标检测技术已经越来越成熟目前神经网络的目标检测技术已经被广泛应用生产生活的各个领域影响着人们的日常生活本文对几种主要的目标检测算法进行了介绍并对这些目标检测算法进行了分析最后提出了对目标检测算法的一种猜想关键字目标检测卷积神经网络引言目标检测是指利用计算机工具和相关算法来对现实世界中的对象进行分类和定位的一种计算机视觉技术其主要任务是目标识别和目标定位传统的目标检测算法使用手工提取特征再设计和训练分类器由于传统的目标检测算法鲁棒性差十分容易受到噪声的影响导致其无法普遍的适用于大多数生产生活场景仅在少数领域中被应用随着深度学习的不断发展和大数据时代的到来基于卷积神经网络的目标检测算法迅速发展基于卷积神经网络的目标检测算法主要分为两大类和算法以系列为主要代表具体的算法有等算法以算法和系列算法为主要代表算法将整个目标检测过程分为两个阶段先生成候选框并提取图片特征生成特征图然后再利用分类器进行分类和修正候选框算法直接在原图上进行特征提取预测物体的分类和位置将边界框的定位问题转化为回归问题实现了端到端的目标检测算法算法的过程相较于算法更为复杂但是其算法的准确度要比算法好很多同时也由于模型过于复杂导致其处理图片的速度较慢无法达到实时任务的要求与之相反算法的模型没有算法复杂对图片的处理速度较快能够满足实时检测任务的要求但是其准确度较低目标检测算法两阶段算法算法算法是由等人在年提出借鉴了传统目标检测算法中的滑动窗口思想采用对区域进行识别的方案以便对对象进行分类和定位主要有三个模块组成第一个模块用于生成类别独立的候选框第二个模块是一个大的卷积神经网络用于从每一个候选框中提取特征最后一部分使用分类器进行分类使用算法生成候选区域算法会将图片划分成许多小的区域通过相似度和区域大小不同聚合相邻的小区域类似在这个过程中小的区域先聚合这样做是为了防止大的区域不断聚合小区域导致层次关系不完整算法相对于滑动窗口的穷举法来说计算量要小上很多最初会生成一个区域集接着计算该区域集中相邻区域的相似度将相似度最高的两个区域合并成新的区域添加到区域集中被合并的区域则从该区域集中删除算法为一直重复该过程算法主要通过颜色纹理大小和形状交叠四个方面来计算相似度最终的相似度是这四个值取权重之后的值相加会从每一个候选区域中提取一个维的特征为了使候选区域能够适合网络的输入大小会对每一个区域的大小进行变换所采取的变换方法是不管原始候选区域的大小或长宽比对候选区域进行边缘扩展再进行拉伸操作从而使的候选区域的大小满足要求算法使用进行特征分类他会为每一个类都训练一个分类器在训练或检测的过程中使用这些分类器非每一个类进行分类在测试阶段使用会为每张图片提取个候选区域对每个候选区域进行变换进入网络提取特征最后对每一个类使用为该类训练的支持向量机对提取的特征向量进行评分接着使用非极大值抑制算法选出评分最高的候选区域为了进一步提高的定位效果还可以对边界框进行回归处理输入数据为个训练对其中是候选框的位置表示的位置作者采用了四种坐标映射方法其中前两个表示对候选框中心坐标的尺度不变的平移变换后面两个是对候选框的宽和高的对数空间变换映射方式如下其中表示对该候选框在层提取的特征进行线性变化操作即最终的优化方法为其中在生成候选区域阶段会生成大量的候选框每个候选框都需要单独的经过卷积网络提取特征不同的候选框之间会出现重叠产生大量的重复计算其次训练测试复杂生成候选区域特征提取分类回归都是单独运行的中间数据需要单独保存会浪费大量的存储空间这使得的计算速度缓慢对图像进行处理时会将其强制缩放为这会导致检测的目标发生变形降低检测性能由于与特征回归是后期操作分类和回归时不会更新新的卷积特征其他的算法针对中的关于候选区域重复计算和候选区域形变进行了改进在中候选区域进入卷积网络之前需要对候选区域进行裁剪和缩放到固定大小卷积层和池化层的输出尺寸和输入尺寸相关并不需要固定尺寸真正需要固定尺寸的是后面的全连接层基于此去除了卷积层之前的候选区域的形变操作取而代之在全连接层前加入了金字塔空间池化层这样就使的一次把整张图片输入到卷积网络中提取特征得到特征图然后利用空间金字塔池化从特征图中获取候选区域对应的特征区域根据特征区域使用空间金字塔池化提取固定长度的特征向量进入全连接层的其他部分与相似相对于只经过一次特征提取就可以得到所有的候选区域的特征图则需要对每一个候选区域进行一次特征提取造成了计算上的浪费因此相对于具有更快的处理速度另外空间金字塔层化层的加入也使得不用对候选区域进行裁剪和缩放与的设计相同将整个训练过程分成多个阶段中间过程数据的存储使用了大量的存储空间训练样本的大小不一致会使得候选区域的感受野增大权重不能被神经网络快速更新的微调只会更新后面的全连接层当网络很深时难以奏效的原作者基于对网络做出了改进进一步提高了的处理速度同时减小了对磁盘空间的使用的输入由两部分组成一是待处理的整张图片二是候选区域先对图像进行卷积提取特征图再根据候选区域判断出感兴趣区域算法使用池化替代空间金字塔池化层从特征图中提取固定长度的特征向量经池化得到的特征向量将被送入全连接层全连接层会产生两个分支层其中一层执行分类任务对目标关于个对象类和背景类输出每一个的概率分布另外一层是为了输出个对象中每一个类的四个实数值每四个值编码个类中的每个类的精确边界框位置整个结构是使用多任务损失的端到端训练提出的多任务损失函数将边界框回归加入到了网络中训练同时包含了候选区域的分类损失和位置回归损失算法使用代替进行分类共输出个类别和个背景引入了的类间竞争其分类效果优于的主要流程如下输入一张待检测图像提取候选区域区域归一化分类和回归尽管速度和进度上都有很大的提升但仍未能实现端到端的目标检测不如候选区域的获得不能同步进行速度上还有提升空间与都要单独的候选区域模块该模块运算量大为了解决这个问题等人进一步提出了算法在主干网络中加入了网络用于候选区域的生成网络将一个任意大小的图像作为输入输出候选区域的集合每一个候选区域都会有一个得分通过判断候选区域属于前景或者背景再利用边界框回归修正候选区域获得精确的候选区域这种有效的定位候选区域的方式大大提高了算法的处理速度单阶段算法算法将目标检测中的定位和分类问题视为回归问题仅仅使用一个网络就可以完成两个任务由于整个过程只使用一次网络所以实现了端到端的目标检测任务不同于算法将目标检测过程分成多个部分将目标检测的各个部分统一为一个单一的神经网络使用来自整个图像的特征来预测每一个边界框可以同时生成图像中所有类的所有边界框这意味着是对整个图像中的所有类进行全局性的分析对每个目标的分类和定位都充分利用到了整个图像的信息的这种设计使得它的处理速度大幅提升满足了实时检测的要求会将整张图片划分成的网格如果一个物体的中心落在了一个网格单元中那么该网格单元将负责就检测该物体每个网格单元会预测个边界框和这些边界框的置信度得分置信度分数反映了边界框中物体的类别概率如果一个单元中不存在任何物体那么它的置信度得分为零中每一个边界框由个预测值组成和置信度坐标表示边界框相对于网络单元格的中心的坐标高度和宽度是相对于整个图片的置信度使用预测的边界框和之间的共有个卷积层和两个全连接层卷积层用来提取图像特征使用全连接层来预测输出概率和坐标使用较少的卷积层除了网络的规模外和的所有训练和测试参数都是相同的的检测速度较高了倍这一革新使得深度学习目标检测算法开始能满足实时性检测的需求但是由于最后只会分析的特征图谱导致其对小目标的检测质量不佳且当多个物体在同一网格单元时难以区分同时在速度上的巨大提升不可避免的带来了其在准确度上的损失算法与类似在目标检测的过程中也是用了回归的思想所不同的是还结合了系列候选区域的机制相对于进一步提高了算法的定位精度但仍然无法于的定位精度相媲美使用作为基础网络用于提取图像的特征使用较前的卷积层输出的特征图检测小目标较后的卷积层检测大的目标多尺度区域的局部特征图被用于回归整个图像上的所有位置边框同时兼顾了算法边框定位效果的准确性和算法快速的优点会依次产生六个特征图用来检测不同尺寸的目标会生成六种类型的默认框长宽比分别为长宽比为的默认框有两个但其大小不同可以实现多尺度的特征检测提高了算法的精度但是采用的多层级特征分类使末尾卷积层的感受野变大导致小目标的特征较模糊不利于检测算法的作者认为算法的精度不如算法的原因使因为类别不平衡常规的目标检测算法在模型训练时会生成大量的目标候选区域然后再对这些候选区域进行分类和位置回归但是在这些生成的大量候选区域中绝大多数都是不包含待检测目标的图片背景这就造成了机器学习中经典的训练正负样本不平衡的问题这会使得最终的训练损失为占绝对多数包含信息量却很少的负样本所支配少量的正样本包含的关键信息无法正常发挥作用从而无法得出一个能对模型训练提供正确指导的损失函数常见的解决类别不平衡的方法是负样本挖掘或者其他更为复杂的用于过滤负样本从而使正负样本数维持在一定的比例的作者使用一种新的损失函数解决算法出现的类别不平衡问题将原先训练任务管用的交叉熵误差替换为损失函数的标准公式如下在原本的交叉熵误差前乘上了这一权重这使得当大量的负样本被正确分类时损失会大幅下降错误分类时会适当下降算法分析与比较各算法定位精度和处理速度如下表所示算法基础网络张表一各算法检测精度和检测速度表一是各算法在和数据集下检测精度与检测速度的结果虽然在精度上的表现较差但其处理速度较快能够完成端到端的实时处理任务则与之相反在精度上表现较好速度很慢从表中数据看可以看出在精度和速度上取得了较好的平衡的处理速度达到了的六到十倍在处理速度方面可以与相媲美在获得较快处理速度的同时算法也保持了较高的准确度但是相比于算法的鲁棒性较差各算法在处理不同尺度目标时的定位精度数据算法基础网络表二各算法在不同尺度下的检测精度表二是各算法在数据集上的实验结果从中可以看出表中所列出的多个目标检测算法在处理小目标时表现较差远远不如在处理大目标物体时的精度小目标问题一直是计算机视觉中的难点问题小目标难以检测的原因主要是图像分辨率低图像模糊携带的信息少导致特征表达能力弱可以提取到的特征非常少不利于进行小目标的检测目标检测算法中还存在四类不平衡问题分别为类别不平衡尺度不平衡空间不平衡目标函数不平衡类别不平衡是指前景和背景不平衡前景中不同类别输入的候选框的个数不平衡尺度不平衡是指输入图像和包围框的尺度不平衡不同特征层对最终结果贡献不平衡空间不平衡是指不同样本对回归损失的贡献不平衡正样本分布不平衡目标在图像中的位置不平衡目标函数不平衡是指不同任务对全局损失的贡献不平衡这四类不平衡问题制约着目标检测算法精度和速度的提升模型猜想假设模型主要希望通过对算法的损失函数的修改提高算法的精度在算法中使用的损失函数为的定位损失采取的是损失函数置信损失使用的是交叉熵损失函数在算法的训练过程中会产生大量的候选框这会导致正负样本的类别不平衡因此我猜想使用算法代替算法中的分类损失函数来抑制类别不平衡导致的算法精度下降改进后的损失函数如下定位损失仍然使用函数仅将置信损失函数替换掉并通过的值来调整定位损失和置信损失在整个损失函数中所占的比例总结随着深度神经网络的不断向前发展各种优秀的目标检测算法相继出现目标检测在精度和速度方面的表现越来越好综合来看单阶段算法和两阶段算法各有所长针对不同的任务可以选择不同的算法去完成大多数目标检测算法在检测小目标时效果普遍较差小目标检测成为目标检测领域的一个难点问题应当被人们所重视另外目标检测领域出现的四大不平衡问题也制约着算法效果的进一步提升参考文献叶钊目标检测技术研究进展中国计算机用户协会网络应用分会中国计算机用户协会网络应用分会年第二十三届网络新技术与应用年会论文集中国计算机用户协会网络应用分会北京联合大学北京市信息服务工程重点实验室蒋弘毅王永娟康锦煜目标检测模型及其优化方法综述自动化学报李章维胡安顺王晓飞基于视觉的目标检测方法综述计算机工程与用刘昊目标检测中不平衡问题综述智库时代潘兴甲张旭龙董未名姚寒星徐常胜小样本目标检测的研究现状南京信息工程大学学报自然科学版等