今天的电子设备,不管是嵌入、工业、消费、娱乐,还是通讯电子设备,它们中的应用
程序,都比过去需要在更短的时间内处理更多的数据。一般来说,开发者通常会选用某种通用型处理器或数字信号处理器(DSP),对那些适应性为先的应用程序来说,通用型处理器一直都是最佳的架构选择,而同时DSP也是用于提高运算能力的首选。在许多情况中,既需要适应性,同时也需要强大的运算能力,当为了增加通用型处理器的执行能力而提高时钟频率时,也会带来成本与电能消耗的增加。为满足今日计算的要求,在这些设备中加入了硬件加速或某些特别的辅助部件,但由此付出的代价是增加了编程的复杂性。本文将探讨通过C语言,怎样加速程序处理速度,以可配置软件架构的方式,达到硬件加速的目的,同时我将介绍一个硬件加速有限脉冲响应(FIR)转换器的真实案例。
以软件配置的处理器 大多数高性能IC产品的市场都在不断地变动,追寻更先进的标准,及满足永远都在变化的系统需求。基于ASIC的架构,虽然提供了所需的性能,但却不能快速及经济地满足这些变化着的应用规格,因此,许多开发者不得不转向以软件方式配置的架构,其可在应用型处理器中融入可编程逻辑。
以软件配置的架构,其优势在于,可编程的门电路可作为应用型处理器,有机地集成进同一流水线,而作为参考对比基于协处理器的架构,通常是使用FPGA或ASSP这样单独的系统部件来减轻系统负载的,这种使用协处理器的做法,带来的是复杂的、应用上的分割,并且在应用型处理器等待结果时,造成延迟,或需实现复杂的调度机制。加之对FPGA的
设计需要一个单独的开发环境,和另一支开发队伍,所带来成本上的开销也是非同一般的。
因为以软件配置的处理器可作为应用型处理器,在同一流水线中实现了可编程逻辑,所以,编译器可把算法分为硬件和软件部分,由此也降低了相关的依赖性,其结果是,你可把"硬件"当成"软件",并在单一开发环境中编写代码,使硬件和软件更优化地一同工作。不需要花费巨大的开发资源来手工调校代码,只需高亮标出运算热点,编译器就会以硬件的形式实现它。这些热点区域作为扩展指令实现,应用型处理器可将其视为传统的指令,并在同一流水线中执行。此处的差异在于,扩展指令可表现为成百上千条C指令,在单一时钟周期内高效地执行和计算。
基本FIR转换器 FIR转换器可把热点区域以并行的方式实现,在此,我们讨论的重点是对一个转换器,怎样通过C的实现来硬件加速,这种优化的理念也可应用于其他算法。
可用以下方程式来描述一个FIR转换器:
t=T-1 y(n)=SUM ((h(t)*x)(n-t)) for n=0,...N-1 t=0 |
x(n)在此是输入信号,y(n)是输出信号,h(t)是FIR转换器系数,图1为一个直观的FIR函数示意图,格子内的每一点,代表了系数h(t)与数据点x(n-t)的乘积,而每条斜线上的所有乘积全部相加才能得到输出的y(n)。例1是对FIR转换器一个直接用C语言的实现方法。利用此实现,一个使用T=64和N=80的64路转换器执行完,将大约需要27230个时钟周期。而这种固有的并行架构,使它成为一个非常适合于实际应用中硬件加速的候选方案。
图1:FIR函数示意图 |
例1:
void fir(short *X, short *H, short *Y, int N, int T) { int n, t, acc; short *x, *h; /* 转换器输入 */ for (n = 0; n < N; n++) { x = X; h = H; acc = (*x--) * (*h++); for(t = 1; t < T; t++) { acc += (*x--) * (*h++); } *Y = acc >> 14; X++; Y++; } } |