基于图像识别的阅卷系统的设计与实现
扫描二维码
随时随地手机看文章
高校学生的期末考试是普通高等学校管理的一项重要工作,它是根据国家对高等学校学生德智体全面发展的要求,按照统一的原则、方法和程序,对学生学习和行为的表现进行阶段和全程的质量考核、记载、评价和处理。目前客观题型较多的英语考试或计算机基础考试均实现了阅卷自动化,无需教师干预,既能加快试卷反馈的速度,又能保证公平公正。传统的阅卷系统利用光学标记阅读机的光电变换原理,对填涂在答题卡上的内容进行高速采集,然后进入计算机处理[1]。但是它对答题卡纸张和印刷质量要求太高,如套印误差和剪切误差必须分别控制在0.1 mm和0.2 mm以内;对使用者涂写要求太高,限制太多,如需要用专用铅笔涂满长方条,不得涂出长方条外,整张答题卡涂写要深浅一致等;机械传动机构复杂、使用寿命短、维护量大、设备一致性差[2]。
本文提出一种基于图像识别的阅卷系统,允许使用者使用任何颜色的圆珠笔、钢笔或铅笔在一般纸张的固定位置上涂写如“√”、“╳”、“○”等手写符号完成答题,由阅卷系统采用图像识别技术自动识别答题卡信息,实现阅卷自动化。本系统与传统的光学标记阅读机阅卷系统的不同之处在于,本阅卷系统对答题卡纸张和填涂符号均无特殊要求,无需特制答题卡,无特殊涂写要求[3]。
1 系统实现流程及模块组成
(1)设计和定义答题卡,将允许用户填写的手写符号限定在一定的矩形区域内;
(2)通过CCD采像设备采集答题卡图像,经扫描、采样、量化等过程,同时将答题卡图像以JPG格式保存在主机内存和硬盘里;
(3)对答题卡图像进行预处理,包括粘连字符分割、灰度变换、二值化、图像偏斜纠正、平滑和细化等过程,以将答题卡固有的纸张问题、书写不规范、答题卡传动机械定位精度所带来的干扰因素排除掉,并为后续的识别工作做好准备[4];
(4)对答题卡信息进行识别。通过图像分析抽取图像,并经过综合特征提取,结合答题卡表格的逻辑结构和几何结构,准确识别填涂在矩形块位置上的“√”、“╳”、“○”等手写符号得到答题信息。答题卡识别算法的优劣决定了整个系统的性能(如识别的精度、可靠性等),是整个软件系统中最重要的部分;
(5)对识别的答题信息进行加工、整理、分析和统计,结合软件的设置对答题卡信息进行判分。
综上所述,系统实现流程如图1所示。
为了便于学生和教师查询和分析阅卷结果,本阅卷系统还设置了用户登录模块、学生信息管理模块、课程基本信息管理模块、试卷分析模块、成绩查询模块、答题卡图像查询模块、报表打印模块和补考管理模块。其中试卷分析模块对试卷的各项数据进行分析和统计,包括最高分、最低分、平均数、及格率方差、标准差等,完成试卷分析功能;答题卡图像查询模块允许学生通过姓名查询存储在硬盘中的答题卡图片;补考管理模块统计不及格、缺考或舞弊学生信息,生成补考表;报表打印模块完成答题卡图片、成绩报告单、试卷分析报告和补考表等的打印功能。系统模块组成如图2所示。
2 系统主要实现技术
2.1答题卡设计
答题卡设计成表格的形式,由试卷答题卡基本信息、考生基本信息、答题卡填写说明及题目选项列表组成,考生用“√”、“╳”、“○”等手写符号在相应的矩形框中选择答案。答题卡示例如图3所示。
答题卡版面与普通表格一样具有几何结构和逻辑结构,几何结构反映了所填写的信息区域的位置和大小,逻辑结构则表示答题卡中所填写信息的实际意义以及填写信息与填写项之间的对应关系。
在传统的光学标记阅读机阅卷系统中,答题卡的几何结构大部分都是采用定位标记块进行描述,这种描述方法具有很多缺点,如浪费版面空间、缺乏灵活性、版面设计比较复杂、对印刷质量要求高、不便于修改等,而且定位标记块看起来也不美观。在本系统答题卡版面中,填写信息在几何结构上可以看成由若干个互不相交的矩形块组成,它们组成了答题卡版面的最小单位[5],可以以答题卡的边框线建立二维坐标系,以矩形的对角顶点坐标来描述矩形块的位置和大小,完成对答题卡的几何结构描述,该方法简洁、灵活,便于识别。
答题卡的逻辑结构描述是定义矩形块的属性。矩形块的属性包括对填写项以“√”、“╳”、“○”表示的选择或者不选择。
本系统采用文档结构描述语言同时对几何结构和逻辑结构进行描述。设一张答题卡包含n个填写有信息的矩形块B1,B2,...,Bn, 矩形块之间存在着上下结构和左右结构的几何位置关系,其逻辑顺序一般是从上到下、从左到右,在描述文档结构时也采用这种顺序,则文档结构描述语言DDL 表示如下:
其中i 是答题卡的序号;n是矩形块的总数;xi为矩形块在水平方向的位置;yi为矩形块在垂直方向的位置;li为矩形块的长度;wi为矩形块的宽度;attri表示矩形块的属性,当attri为0时,表示该矩形块的填写内容为待识别的字符,attri为1时,矩形块作为图像保存。
将答题卡设计成常见的表格形式,一方面它和一般考试用到的答题卡的形式类似,符合人们的使用习惯和书写习惯;另一方面可以利用文档描述语言对它的几何结构和逻辑结构进行描述,以便更好地对矩形框内的字符特征进行提取与识别,辨别矩形框中的字符,与标准答案比对,对考生客观题进行判分。
2.2 答题卡信息识别
本系统采用汉字识别方法中的统计决策方法对手写字符进行识别,如图4所示,首先提取字符特征,对字符进行分类判别,经过训练和识别两个阶段,最后识别出字符[6]。训练阶段,收集日常人们习惯的手写符号为样本,经过筛选分类建立样本库,以便对待识别字符进行分类和识别。识别阶段,将待识别符号的特征与训练阶段中所建立的标准样本特征比较,计算最大相似度以判别该手写符号所属的类别[7]。
2.2.1 字符特征提取
学生在答题过程中由于紧张和个人原因,写出的√、╳、○等答题符号往往千变万化。为准确识别这些手写符号,需要进行字符结构特征提取,将最能体现这个字符特点和字符间差异的结构特征提取出来。本系统提取的特征是以下特征的组合。
(1)点特征
点特征是一种重要的结构特征,是指字符笔画中的端点。端点反映了字符中笔画的起点和终点信息,与该点相连的点数为 1。
(2)笔画密度特征
笔画密度特征是取得符号水平方向笔画密度函数d(x)和垂直方向的笔画密度函数d(y),然后进行相同项合并[1]。如图5所示,符号“○”水平方向笔划密度函数d(x)和垂直方向的笔划密度函数d(y)分别是: d(x)=(1,...,1,2,...,2,1,...,1),d(y)=(1,...,1,2,...,2,1,...,1),则合并后笔画密度可表示为d(x)=d(y)=(1,2,1)。
(3)基于链码方法的结构特征
从曲线起点开始与其相连的像素点有8种可能的方向:k×45°(k=0,1,…,7),如图6所示, 如果两个像素点间的连线方向为k×45°,就用“k”作为这条连线的代码,则一条曲线最终可近似地用下式表示:
An=a1a2…an,ai∈{0,1,2,…,7}, i=1,2,…,n
(4)孔洞特征
在二值图像中,被目标像素1包围的背景像素0(的集合)称为孔洞(hole)。在字符的骨架线的链码形成过程中,若搜索到的下一点就是该骨架线的搜索起始点,同时己形成的骨架链码码长超过了一定的阈值,则认为搜索到一个孔洞[5]。
(5)横竖方向交叉特征
横向或纵向扫描字符,某一行或列的像素由白变黑的次数就是该行或列的横或纵向交叉特征。本系统将横竖两个方向距离不等的7条线作用于字符,计算水平和垂直方向与字符的交叉数,如图7所示。
2.2.2 符号模型库建立
答题卡信息识别的训练阶段需要建立符号模型库,以便对待识别手写符号进行分类和识别。符号模型库建立的好坏直接影响分类器的应用,从而影响手写符号识别效果[5]。
由于手写符号的多样性,需要选择某一类手写符号中具有代表性的多个样本来构造标准样本,本系统采用手写字符样本特征向量的均值来描述类目标。设有n个符号类,每个符号类中有a个训练样本,每个样本有b个符号特征,每个符号类中样本的特征记为fkj,k为样本特征序号,j为各个手写符号的样本序号,则第i个目标类特征的均值为P(i),即:
每次计算Pik时,k为大于等于1小于等于b的固定值。Pik为对于第i个目标类中a个样本中各个样本对应第k个特征值的均值。
2.2.3 手写符号识别
对答题卡中矩形框信息识别包括两个方面,一是识别矩形框中是否有字符,二是识别具体是哪种字符。其中识别是否书写了字符比较简单,只要比较增强对比度后的矩形框图像与已知填有信息的矩形框的均方差大小,即可识别是否有字符,因为空白的矩形框和被书写的矩形框均方差差别很大。下面主要介绍怎样识别矩形框中的具体字符。
手写符号识别就是在提取到符号的特征向量之后,依据一定的判别函数来判定出某一图形点阵具体代表的是哪一个手写符号。
判别函数可以先简单地作如下定义:考虑有P1,P2,...,Pm个符号类别,假使每类有一个标准样本,则共有m个标准样本,分别表示为k1,k2,...,km。任意一符号特征向量X和第i个(i=1,2,...,m)标准样本间的“相似度”为Ri。计算待识别的符号特征向量X与每类标准样本之间的“相似度”[7],并将X分到与它“相似度”最大的类别,即对所有的j不等于i,若Di>Dj,则X就属于Pi类符号。
系统采用基于最邻近域分类器的模板匹配算法来对手写符号进行识别。
首先定义字符特征向量,经过前面的特征提取分析,该特征向量为一个16维向量,X={x1,x2,..,x16},具体定义为:
x1:孔洞数;
x2:端点数;
x3~x9:7条水平线与字符的交叉次数;
x10~x16:7条竖直线与字符的交叉次数。
通过度量待识别字符和样本库中样本字符的接近程度,确立最近分类的一个准则。在最邻近分类中,经常使用的是相似度。如图8所示,在提取了待识字符的特征向量并建立了字符库后,将待识别字符和样本库中第i个样本的特征向量之间求近似度R(X,G)。R(X,G)定义如下:
式中,xi为待识别符号特征向量的第i个分量,gik为样本库中第i个标准样本的第k个分量,m为样本类别数。分子为向量X,G之间的内积,分母分别为向量X、G的模。α是向量X,G在m维空间的夹角。显然,当X、G两个向量完全相同时,其夹角为0,R(X,G)=1,它们的距离D(X,G)=0,即相似度最大。求出最大Rr(X,G),若Rr(X,G)≥给定阈值,即可找到与待识别字符最接近的样本类别,否则人工干预并修改样本库[7]。
3 实验结果与分析
实验采用CCD摄像头采集答题卡图像,经图像预处理、若干特征提取、信息识别等过程,判定矩形框中有无字符、是什么字符,最后对答题卡信息分析和统计。实验采用100份试卷作为样本,对20份试卷进行测试,结果发现识别错误的手写符号主要是“√”和“╳”,原因在于这两者在结构方面相似,而符号“○”的识别率达到100%。
本系统将图像预处理、字符特征提取与图像识别等技术应用于阅卷系统的开发,实现了阅卷自动化,加快了成绩考核的速度,改善了教学管理环境。相比于传统的基于光学标记阅读机的阅卷系统,本系统利用图像识别技术实现阅卷自动化,不需要特殊的答题卡,考生也可以随意使用各种“√”、“╳”、“○”等手写符号进行答题,不必用指定的2B铅笔填涂矩形块,更符合人们的习惯。
参考文献
[1] 王虎.基于图像识别的标记阅读机及选举计票系统研究[D].合肥:安徽大学,2006.
[2] 张婷.基于图像识别技术的光学标记阅读机的研究与应用[D].合肥:安徽大学,2007.
[3] 吴元君,张婷,雷惊鹏.一种改进的OMR 技术在标准化考试中的应用[J].计算机教育,2007(13):250-272.
[4] 丁慧东.脱机手写体汉字识别研究[D].长春:东北师范大学,2006.
[5] 庞东虎,金伟杰.英文字符特征提取系统[J].计算机仿真,2007,24(12):208-210.
[6] 杨玲,毛以芳,吴天爱.基于多特征多分类器的脱机手写汉字识别研究[J].计算机与网络,2008(01):217-217.
[7] 覃胜,刘晓明.基于图像的OMR技术的实现[J].电子技术应用,2003,29(10):17-19.
[8] 翁功平.光标阅读机OMR原理的设计与实现[J].工业控制计算机,2010,23(04):61-62.