人脸识别和人工智能的结合带来非凡体验

时间：2020-05-26 11:57:01

关键字：人工智能人脸识别计算机软件

手机看文章

扫描二维码
随时随地手机看文章

[导读] 深度学习只是机器学习中的一个标准范式，更精确地说，是其中一个算法。深度学习在最大限度上依靠于人脑的概念以及神经之间的相互沟通。在谷歌上搜索“什么是深度学习”，会发现当时的相关热词已经与现在有很大

深度学习只是机器学习中的一个标准范式，更精确地说，是其中一个算法。深度学习在最大限度上依靠于人脑的概念以及神经之间的相互沟通。在谷歌上搜索“什么是深度学习”，会发现当时的相关热词已经与现在有很大不同。产生这种现象的原因是什么呢？实际上，“深度学习”这一术语最早出现在19世纪80年代，但直到2012年，人们才具备足够的能力去运用这项科技，并逐渐开始注意到它。

知名科学家们在科学期刊上发表一系列文章后，这项技术开始风靡。如今，它有着各种各样的应用，其中人脸识别占据了重要的位置。首先，深度学习助力构建识别生物特征软件，该软件能够独立识别或验证个体。所有这些都是因为深度学习方法能够利用非常庞大的人脸数据集，认识多种多样的袖珍图片，使现代模型能够先运行，随后甚至超越人类的人脸识别能力。

深度学习系统根据人脑新皮质的神经网络建模，在那里出现了更高层次的认知。在大脑中，神经元是一个传递电子或化学信息的细胞。神经元与其他神经元连接时会形成神经网络。在机器中，神经元是虚拟的——基本上是运行统计回归的代码位。把足够多的虚拟神经元串在一起就得到了一个虚拟的神经网络。

虽然计算机有不同型号，但是它们经历的过程是一样的。层次结构中的每个算法对其输入应用非线性转换，并使用所学内容创建一个统计模型作为输出。迭代直至输出达到可接受的精度水平才停止。数据必须通过的处理层的数量激发了标签的深度。

让我们首先关注人类是如何识别人脸的。由于面部表情的识别需要人脑广泛而多样部位的参与，面部感知十分复杂。脑成像研究通常显示颞叶的梭形回区域有大量的活动，梭形回区域在受损时（尤其是两侧受损时）也会引起面容失认症。人们从出生起就学会辨认面孔，四个月大的时候就能清楚地分辨出一个人和另一个人。

人们最关注的是眼睛、颧骨、鼻子、嘴、眉毛，以及皮肤的质地和颜色。同时，我们的大脑将面部作为一个整体来处理，甚至可以通过半张脸来识别一个人。大脑将所得图像与内部平均模式进行比较，发现特征差异。

首先，人脸识别系统需要在图像中找到人脸并突出显示该区域。为此，软件可以使用多种算法：例如，确定比例和肤色的相似性，选择图像中的轮廓及其与人脸轮廓的比较，使用神经网络选择对称性。最有效的方法是可以实时使用Viola-Jones方法。有了此方法，即使人脸旋转30度，系统也能识别脸孔。

该方法基于Haar符号。Haar符号是一组形状各异的黑白矩形遮罩。遮罩叠加在图像的不同部分，算法将遮罩的黑白部分下面的图像的所有像素的亮度相加，然后计算这些值之间的差异。接下来，系统将结果与累积的数据进行比较，并在确定图像中的人脸后，继续跟踪它以选择最佳角度和图像质量。因此需使用运动矢量预测算法或相关算法。

系统在选择了最成功的图片后，继续进行人脸识别，并与现有的基础进行比较。它的工作原理与画家画肖像的原理相同，都是在人脸上找到构成个人特征的参考点。通常，程序分配大约100个这样的点。

面部识别程序最重要的测量是眼间距、鼻孔的宽度、鼻子的长度、颧骨的高度和形状、下巴的宽度、前额的高度和其他参数。然后，程序将获得的数据与数据库中的可用数据进行比较，如果参数一致，就可以识别与该人脸相一致的人了。人脑能即刻自动完成这些步骤。事实上，人能很好识别人脸并从日常事物中区分人脸。至少目前看来，计算机不能进行如此高程度的泛化，所以只能教授它们每一步该做的事情。

因此有必要构建一个管道，在此能分别在人脸识别过程的每个步骤找到解决方案，并将当前步骤的结果传输到下一个步骤。也就是说，需要将多个机器学习算法组合到一条链中。事实上，对人类而言显而易见的特征，如眼睛颜色，对计算机分析图像中的单个像素没有意义。研究人员发现，最合适的方法是使计算机能够确定需要收集的特征。与此相反，深度学习可以更好更快地识别。

而最近，这个可能性出现了，或者说是被发现了。最开始每个人都不相信神经网络的表现可以接近人类水平。但在2014年，一切都发生了变化。科学家们决定利用目前最好的两个网络——AlexNet、以及Matthew D.Zeiler和Rob Fergus开发的网络。科学家们将它们与猴子大脑不同区域的反应进行了比较。猴子大脑经过训练可以识别对象。并且选取的物品都来自动物世界，这样猴子就不会混淆。

显然我们不可能从猴子身上获得反应，因此我们植入了电极，并直接测量每个神经元的反应。结果发现，在正常情况下，脑细胞的反应和当时最先进的模型Matthew Zeiler网络表现一致。但是，随着展示物体的速度加快，图像中的噪声和物体数量增加，人类和灵长类动物大脑的识别率和质量显著下降。而在这种情况下，即使最简单的卷积神经网络也能更好地识别物体。也就是说，官方的神经网络比人类大脑工作得更好。