1. 6.1 图像识别问题简介及经典数据集

视觉是人类认识世界非常重要的一种知觉。对于人类来说,通过视觉来识别手写体数字、识别图片中的物体或者找出图片中人脸的轮廓都是非常简单的任务。然而对于计算机而言,让计算机识别图片中的内容就不是一件容易的事情了。图像识别问题希望借助计算机程序来处理、分析和理解图片中的内容,使得计算机可以从图片中自动识别各种不同模式的目标和对像。比如在第5章中介绍的MNIST数据集就是通过计算机来识别图片中的手写体数字。图像识别问题作为人工智能的一个重要领域,在最近几年已经取得了很多突破性的进展。本章将要介绍的卷积神经网络就是这些突破性进展背后的最主要技术支持。图6-1中显示了图像识别的主流技术在MNIST数据集上的错误率随着年份的发展趋势图。

图6-1 不同算法在MNIST数据集上最好表现变化趋势图 (5) (6)

图6-1中最下方的虚线表示人工标注的错误率,其他不同的线段表示了不同算法的错误率。从图6-1上可以看出,相比其他算法,卷积神经网络可以得到更低的错误率。而且通过卷积神经网络达到的错误率已经非常接近人工标注的错误率了。在MNIST数据集的一万个测试数据上,最好的深度学习算法只会比人工识别多错一张图片。

MNIST手写体识别数据集是一个相对简单的数据集,在其他更加复杂的图像识别数据集上,卷积神经网络有更加突出的表现。Cifar数据集就是一个影响力很大的图像分类数据集。Cifar数据集分为了Cifar-10和Cifar-100两个问题,它们都是图像词典项目(Visual Dictionary) (7) 中800万张图片的一个子集。Cifar数据集中的图片为32×32的彩色图片,这些图片是由Alex Krizhevsky教授、Vinod Nair博士和Geoffrey Hinton教授整理的。

Cifar-10问题收集了来自10个不同种类的60000张图片。图6-2的左侧显示了Cifar-10数据集中的每一个种类中的一些样例图片以及这些种类的类别名称,图6-2的右侧给出Cifar-10中一张飞机的图像。因为图像的像素仅为32×32,所以放大之后图片是比较模糊的,但隐约还是可以看出飞机的轮廓。Cifar官网https://www.cs.toronto.edu/~kriz/cifar.html提供了不同格式的Cifar数据集下载,具体的数据格式这里不再赘述。

图6-2 Cifar-10数据集样例图片

和MNIST数据集类似,Cifar-10中的图片大小都是固定的且每一张图片中仅包含一个种类的实体 (8) 。但和MNIST相比,Cifar数据集最大的区别在于图片由黑白变成的彩色,且分类的难度也相对更高。在Cifar-10数据集上,人工标注的正确率大概为94% (9) ,这比MNIST数据集上的人工表现要低很多。图6-3给出了MNIST和Cifar-10数据集中比较难以分类的图片样例。在图6-3左侧的四张图片给出了Cifar-10数据集中比较难分类的图片,直接从图片上看,人类也很难判断图片上实体的类别。图6-3右侧的四张图片给出了MNIST数据集中难度较高的图片。在这些难度高的图片上,人类还是可以有一个比较准确的猜测。目前在Cifar-10数据集上最好的图像识别算法正确率为95.59% (10) ,达到这个正确率的算法同样使用了卷积神经网络。

图6-3 MNIST和Cifar-10数据集中分类难度较高的样例

无论是MNIST数据集还是Cifar数据集,相比真实环境下的图像识别问题,有2个最大的问题。第一,现实生活中的图片分辨率要远高于32×32,而且图像的分辨率也不会是固定的。第二,现实生活中的物体类别很多,无论是10种还是100种都远远不够,而且一张图片中不会只出现一个种类的物体。为了更加贴近真实环境下的图像识别问题,由斯坦福大学(Stanford University)的李飞飞(Feifei Li)教授带头整理的ImageNet很大程度地解决了这两个问题。

ImageNet是一个基于WordNet (11) 的大型图像数据库。在ImageNet中,将近1500万图片被关联到了WordNet的大约20000个名词同义词集上。目前每一个与ImageNet相关的WordNet同义词集都代表了现实世界中的一个实体,可以被认为是分类问题中的一个类别。ImageNet中的图片都是从互联网上爬取下来的,并且通过亚马逊的人工标注服务(Amazon Mechanical Turk)将图片分类到WordNet的同义词集上 (12) 。在ImageNet的图片中,一张图片中可能出现多个同义词集所代表的实体。

图6-4展示了ImageNet中的一张图片,在这张图片上用几个矩形框出了不同实体的轮廓。在物体识别问题中,一般将用于框出实体的矩形称为bounding box。在图6-4中总共可以找到四个实体,其中有两把椅子、一个人和一条狗。类似图6-4中所示,ImageNet的部分图片中的实体轮廓也被标注了出来,以用于更加精确的图像识别。

图6-4 ImageNet样例图片以及标注出来的实体轮廓 (13)

ImageNet每年都举办图像识别相关的竞赛(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),而且每年的竞赛都会有一些不同的问题,这些问题基本涵盖了图像识别的主要研究方向。ImageNet的官网http://www.image-net.org/challenges/LSVRC列出了历届ILSVRC竞赛的题目和数据集。不同年份的ImageNet比赛提供了不同的数据集,本书将着重介绍使用得最多的ILSVRC2012图像分类数据集。

ILSVRC2012图像分类数据集的任务和Cifar数据集是基本一致的,也是识别图像中的主要物体。ILSVRC2012图像分类数据集包含了来自1000个类别的120万张图片,其中每张图片属于且只属于一个类别。因为ILSVRC2012图像分类数据集中的图片是直接从互联网上爬取得到的,所以图片的大小从几千字节到几百万字节不等。

图6-5给出了不同算法在ImageNet图像分类数据集上的top-5正确率。top-N正确率指的是图像识别算法给出前N个答案中有一个是正确的概率。在图像分类问题上,很多学术论文都将前N个答案的正确率作为比较的方法,其中N的取值一般为3或5。从图6-5中可以看出,在更加复杂的ImageNet问题上,基于卷积神经网络的图像识别算法可以远远超过人类的表现。在图6-5的左侧对比了传统算法与深度学习算法的正确率。从图中可以看出,深度学习,特别是卷积神经网络,给图像识别问题带来了质的飞跃。2013年之后,基本上所有的研究都集中到了深度学习算法上。从6.2节开始将具体介绍卷积神经网络的基本原理,以及如何通过TensorFlow实现卷积神经网络。

图6-5 不同算法在ImageNet ILSVRC2012图像分类数据集上的正确率

Copyright & copy 7dtime.com 2014-2018 all right reserved,powered by Gitbook该文件修订时间: 2018-06-23 09:57:04

results matching ""

    No results matching ""