当前位置:首页 > 嵌入式 > 嵌入式教程
[导读]基于ARM的除法运算优化策略

    与传统的48位单片机相比,ARM的性能和处理能力是遥遥领先的。但与之相应,ARM的系统设计复杂度和难度,较之传统的设计方法也大大提升了,同时也大大拓展了针对ARM芯片特性进行优化的空间,例如针对指令流水线的优化、针对寄存器分配进行的优化等。

 
   
ARM
在硬件上不支持除法指令,编译器是通过调用C库函数来实现除法运算的,有许多不同类型的除法程序来适应不同的除数和被除数。但直接利用C库函数中的标准整数除法程序,根据执行情况和输入操作数的范围,要花费20100个周期,消耗较多的软件运行时间。在实时嵌入式应用中,对时间参数较为敏感,故可以考虑如何优化避免除法消耗过多的CPU运行时间。


    除法和模运算
(/和%)执行起来比较慢,所以应尽量避免使用。但是,除数是常数的除法运算和用同一个除数的重复除法,执行效率会比较高。在ARM中,可以利用单条MUL指令实现乘法操作。本文将阐述如何用乘法运算代替除法运算,以及如何使除法的次数最少化。

 

1  避免除法运算

    在非嵌入式领域,因为CPU运算速度快、存储器容量大,除法操作通常都是不加考虑直接使用的。但在嵌入式领域,首先需要考虑的是这些除法操作是否是必须的。以对环形缓冲区操作为例,经常要用到除法,其实完全可以避免这些除法运算。


    假定有一个buffer_size大小的环形缓冲区,如图1所示,0ffset指定目前所在的位置。通过increment字节来增加offset的值,一般是这样写的:

0ffset=(Offset+increment)buffer_size


效率更高的写法是:

offset+=increment

if(offset>=buffer_size){

    offset=buffer_size

}


    第一种写法要花费50个周期,而第二种因为没有除法运算,只须花费3个周期。这里假定increment<buff_er_size,在实际应用中这点应该是保证的。


    如果不能避免除法运算,那么就应尽量使除数和被除数是无符号的整数。有符号的除法程序执行起来更加慢,因为它们先要取得除数和被除数的绝对值,再调用无符号除法运算,最后再确定结果的符号。

 

2  充分利用商和余数

    许多C语言库中的除法函数返回商和余数。换句话说,每一个除法运算,余数是可以无偿得到的,反之亦然。例如,要在屏幕缓冲区找到偏移量为offset的屏幕位置(xy),可以这样写:

typeclef struct{

  int  x;

  int y;

}point

point getxy_v1(unsigned int offsetunslgned int bytes_per_line){

point p

py=offsetlt)ytes_per_line

px=offset -   py*  bytcs_per_line

return p

}

 

    这里,似乎对px使用减法和乘法,少了一次除法运算;但是,实际上使用模运算或者取余操作效率更高,对

getxy_vl改进如下:

point getxy_v2(unsigned int offsetunsigned int bytes_per_line){

point P

Px=offsetbytes_per_1ine

Py=offsetbytes_per_line

return P;


    从下面编译器的输出结果可以看到,只有一次除法调用。实际上,这个程序要比前面的getxy_vl4条指令(注意,并不是对所有的编译器和C库都有这样的结果)getxy_v2

  STMFD r13!{r4r14};保存r4lr人堆栈

  MOV  r4rO    ;赋值后r4保存的为点P基址

  MOV  rOr2    rO=bytes_per_line

  BL    rt_udiv    ;调用无符号除法例程

    (r0.;r1)=(rlrOrlrO)

STR    r0[r4#4]  Py=offsetbytes_per_line

STR  rl[r4#o]  Px=offset%bytes_per_line

LDMFD r13!(r4pc);恢复上下文,返回

 

把除法转换为乘法

    在程序中,同一个除数的除法经常会出现很多次。在前面的例子中,bytes_per_line的值在整个程序中都是固定不变的。又如32笛卡尔坐标变换,其中就使用了同一个除数两次:

(x,Yx)(xzyz)


   
这种情况下,使用cache指令中的值1z,并使用1z的乘法来代替除法运算,效率会更高。另外,要尽可能使用int类型的运算,避免使用浮点运算。


    下面将更加偏重于从数学和理论的角度分析,把重复除法转换成乘法运算。


    下面来区分精确数学意义上的除法和整型除法运算:

nd,即整数n被分成整数d份,结果趋向于O(C语言相同)

nd,即nd除之后的余数,就是n--d(nd)

◇n/d=n·d-1,即真正数学意义上的nd除。


    当使用整型除法时,最容易估算
d-1值的方法是计算232d。然后,就可以估算nd为:

    (n(232d))232    (1)


    在执行
n的乘法时,需要精确到64位。对于这种方法,会出现如下问题:

◇为了计算232d,由于一个unsigned int类型的数据放不下232,编译器要使用64long long类型的数,而且必须指定除法为(1 ull<<32)d。这种64位的除法比32位的除法执行起来要慢得多。

◇如果d碰巧是1,那么232d就不再适合于unsigned int数据类型。


    上面的做法似乎很好,而且解决了这两个问题。那么,再来看一下用
(2321)d代替232d

 

     s=0xffffffff uld    (2)


    以上
nd-2qnd+1为整数值,所以可得q=ndq=(nd)1,即初步估计的结果q与正确值nd有可能存在偏差1。可以发现,通过计算余数r=nq·d(Or<2d)是比较容易的。下面的代码纠正了这个结果:

r=n--q*d;*初步估计结果余数r的范围为Or<2d*

if(r>=d){*若需要校正*

r-=d;/*校正r,使Or<d为正确余数范围*

n++;*相应商加1进行校正*

}    *得正确结果q=ndr=nd*


    下面给出一个实例,用上面的算法完成了
N个元素的数组被d除。首先,计算上面所说的s值,然后用乘以5来代替每个被d除的除法。64位的乘是很容易实现的,因为ARM中有一条指令UMULL,可以进行232位数相乘,给出一个64位的结果。

void scale(

unsigned int*dest    *目的数据*

unsigned int*src    *源数据*

unsignedInt d    *分母d*

urlslglaedInt N)    *数据长度*

{

unsigned int s=0xFFFFFFFFud

do{

unsigned int nqr

n=*(src++)

q=(urtslgrted int)(((unsined tong long)n*s)>>32)

r=n*d

if(r>=d){    *若需要对商进行校正*

    q++

}

    *(dest++)=q;

}while(一一N)

}


    这里假定除数和被除数都是
32位的无符号整数。当然,使用32位乘法进行16位的无符号数计算,或者使用1 28位乘法进行64位数计算,运算规则是一样的。可以为特定的数据选择最窄的运算宽度。如果数据是16位的,那么就设置s=(2161)/d,然后用标准的整型乘法来求值q

 

 

    在嵌入式软件编程中,为了节省CPU运行时间,应尽可能避免使用除法。对环形缓冲区的处理可以不用除法。如果不能避免除法运算,那么应尽可能使用除法程序同时产生商nd和余数nd的好处。对于重复对一除数d的除法.预先计算好s=(2k1)d,用乘以s2k位乘法来代替除以dk位无符号整数除法,可大大减少由于直接使用除法操作引入的指令周期数。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭