当前位置:首页 > 消费电子 > 视频技术
[导读]   近年来,计算机图形图像处理技术获得突破性的进展,个人PC中也涌现出越来越多令人惊叹的图形处理软件,凭借着数学界领域的最新研究,个人电脑已经开始学会了“看”图,读懂文字

  近年来,计算机图形图像处理技术获得突破性的进展,个人PC中也涌现出越来越多令人惊叹的图形处理软件,凭借着数学界领域的最新研究,个人电脑已经开始学会了“看”图,读懂文字,辨别建筑物。

  

  传统的PC图像识别技术主要基于统计学原理,其主要依靠分析视觉数据的特性,并将这些特性借助统计建模等数学分析方式提取出来,以最终应用到实际的图像处理中。这种图像识别技术仍旧是目前的主流,广泛用于OCR文字识别、人脸识别、图像处理等领域。但是这种传统的数学分析方式存在很多局限,比如对图片的质量要求很高,这一问题直到新的数学模型出现才得以改善。在2010年5月CHIP的“时尚科技”栏目中,我们就曾经向大家介绍过一种PC图像识别技术的新进展。2009年以华裔澳大利亚籍数学家陶哲轩为代表的一些数学家率先发现了在高维空间中一些原先公认很难的(NP-hard)组合问题,可以用一系列高效的凸优化算法来解决。而由此产生的数学模型可以用来解决目前视觉计算所面临的难题,而且最终的计算结果非常理想。

  微软亚洲研究院的研究员们当时利用这种数学思想取得了图像识别领域的很大突破,使用这种新的数学模型带口罩或墨镜的人脸甚至都可以被PC读取和识别。最近,微软研究院的研究员们在这一技术领域再次取得了新的进展,他们让PC能够看“懂”建筑物,或者具备“认”字的能力,并纠正扭曲或变形的文字。

  读图从看懂结构开始

  

  传统的二维图像识别技术更多地依赖图像特征点来工作,它首先通过统计学的方式来获取图像中最有代表性的点,之后在遇到新的图像时会尝试在其中寻找这些特征点,并将寻找到的点与原来统计得来的特征点进行对比。在图片质量比较出色且没有扭曲的情况下这种技术往往能工作得很好。但现实情况是,我们在拍摄图片时,由于光线、所处的位置等诸多原因,最终无法获得合格的图像,这也就大大限制了这种图像识别技术的发展。

  微软亚洲研究院的研究员们尝试使用高维的数学模型和优化工具来解决这个问题。简单地理解,高维的数学模型采用矩阵的模式,可以帮助我们以整体的概念来看待图像中的物体,而不像传统技术那样只获取局部特征点,这更像是寻求图像中物体的整体对称性和规则性。例如,通常的楼房窗户都是平直的矩形,桌子总是四四方方拥有4条腿等。借助这些规则,即便图片只能提供有限的信息,PC也能够更容易地识别出图片中的物体。在高维数学模型中,输入每一个点的数据都可以被用来预测某种规则性,因此这种高维的图像识别技术可以利用图片中几乎每个像素点来获取图像中物体的整体规则结构,这意味着往往只需图片的一小部分即可完成图像中物体的矫正和识别。例如,在传统图像识别技术中,100&TImes;100的图像区域往往提供不了多少特征点数据,而在高维的图像识别技术中,这意味着将有近10000个像素点都可以用来获取图像的规则结构信息。

  从人的角度读图

  

  借助规则性和规律性来识别周围的环境和景物是人类的基本技能,实际上一个人从出生开始就在学习各种各样的规则。比如什么是矩形、什么是圆形,以及桌子一般什么样、房子一般什么样等等。而高维图像识别使得计算机具备了与人类相同的图像识别方式。当我们看到照片中楼房的窗户因为拍摄视角的问题而变得倾斜时,并不会认为窗户就真的是倾斜的,我们甚至知道窗户本来应该是方正的,同时我们还能分辨出挡在窗户前的树杈并不是窗户的一部分。类似地,通过建立高维图像识别的物体规律,微软研究院的研究员们已经能够让PC实现类似的功能,它能够帮助我们把倾斜的楼宇校正,或者擦去楼宇前方的树枝。

  由此我们也可以了解这项技术的特长与不足,凡是遵循一定规则的物体或图像,这项技术就能够通过建立规则的方式对其进行识别,凡是规则性不强的物体或图像,这项技术往往就会有较大的局限,例如在一个混乱的花丛中处理某个物体就不是这项技术能够胜任的。通常来说,具备规则性的物体往往是由人所创造,因为从人类最基本的理念上来看,人类相信这个世界是简单的,且具备规整结构的,在人类创造各种物品时都会遵循简单、易用的原则,在这种原则的影响下,没有规则性的事物就会被逐步淘汰。规则并没有我们想象的那么复杂,我们并不需要给世界上的每一种物体都建立一个规则。这里的规则实际上是一种数学结构的分类,很多物体在数学结构角度上看是相同的东西,所以我们只需要建立一些重要的通行规则即可。当然也有一些特殊事物要单独建立规则,例如文字。

  文字这种由人类发明的图形组合,在人类审美和规则性思维的调整下,逐步完善并建立了很好的规则性,比如横平竖直以及各种整体或局部的上下左右对称性等等。无论是英文、中文或是其他文字,基本都具备很强的规则性,而这种规则在数学上也是能够归纳和总结出来的,这样的图像在高维空间中有着很低维的内在结构。例如,目前除了笔划很少的汉字规则性不强外,绝大部分汉字都具备很强的规则性。

  总的来说,这种高维图像识别技术能够解决以往我们根本无法解决的一些图像识别问题,在逐步完善后,它将会彻底改变我们识别和操作图片的方式。高维图像识别技术在识别图像中的物体之前,用户要告诉计算机正在识别的规则物体的位置。而下一步要做的就是要让计算机能够更聪明地发现,图像中哪里存在规则性、哪里没有规则性,以及针对图像的不同位置使用不同的规则进行修复等。这种技术另外的一个努力发展方向就是提高运算效率,比如最终能够实现在智能手机等终端上实时运行。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭