在之前的计算机视觉之图像识别一文中,我们讲到了计算机通过图像识别技术进行图像分类,但那是针对图像只有单一物体的分类。当我们的图像包含有很多的物体,但是我们要找图片是否包含某个东西时,显然,之前的方法就行不通了。在这里,我们要介绍一个新的东西——目标检测,它是一个很重要的计算机视觉任务。通过目标检测,可以完成对图像中特定类别的检测。
现在的很多计算机视觉任务,基本都离不开目标检测技术。那么目标检测又是怎样一个过程呢?下面我们忽略细节简单介绍一下目标检测的流程。
现在流行的目标检测方法是通过不同宽高比的窗口在图像上滑动,得到很多个区域框,然后通过神经网络识别区域框内物体所属类别的概率,选取目标类别概率最大的区域框作为检测框。如图,神经网络会根据已有的数据进行学习,以不同宽高比的区域框在图像上滑动(图中只画出两种区域框),经过神经网络处理得到每个区域框中物体的类别概率,然后根据类别概率的大小,保留概率最大的区域框作为最终检测框。经过多次比较,就能得到最终目标类别和概率。