科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道基础软件用C语言加速程序进而加速硬件速度

用C语言加速程序进而加速硬件速度

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

本文将探讨通过C语言,怎样加速程序处理速度,以可配置软件架构的方式,达到硬件加速的目的。

作者:谢启东编译 来源:天极开发 2007年10月27日

关键字: C语言 程序 硬件速度 Linux

  • 评论
  • 分享微博
  • 分享邮件
今天的电子设备,不管是嵌入、工业、消费、娱乐,还是通讯电子设备,它们中的应用程序,都比过去需要在更短的时间内处理更多的数据。一般来说,开发者通常会选用某种通用型处理器或数字信号处理器(DSP),对那些适应性为先的应用程序来说,通用型处理器一直都是最佳的架构选择,而同时DSP也是用于提高运算能力的首选。在许多情况中,既需要适应性,同时也需要强大的运算能力,当为了增加通用型处理器的执行能力而提高时钟频率时,也会带来成本与电能消耗的增加。为满足今日计算的要求,在这些设备中加入了硬件加速或某些特别的辅助部件,但由此付出的代价是增加了编程的复杂性。本文将探讨通过C语言,怎样加速程序处理速度,以可配置软件架构的方式,达到硬件加速的目的,同时我将介绍一个硬件加速有限脉冲响应(FIR)转换器的真实案例。

  以软件配置的处理器

  大多数高性能IC产品的市场都在不断地变动,追寻更先进的标准,及满足永远都在变化的系统需求。基于ASIC的架构,虽然提供了所需的性能,但却不能快速及经济地满足这些变化着的应用规格,因此,许多开发者不得不转向以软件方式配置的架构,其可在应用型处理器中融入可编程逻辑。

  以软件配置的架构,其优势在于,可编程的门电路可作为应用型处理器,有机地集成进同一流水线,而作为参考对比基于协处理器的架构,通常是使用FPGA或ASSP这样单独的系统部件来减轻系统负载的,这种使用协处理器的做法,带来的是复杂的、应用上的分割,并且在应用型处理器等待结果时,造成延迟,或需实现复杂的调度机制。加之对FPGA的设计需要一个单独的开发环境,和另一支开发队伍,所带来成本上的开销也是非同一般的。

  因为以软件配置的处理器可作为应用型处理器,在同一流水线中实现了可编程逻辑,所以,编译器可把算法分为硬件和软件部分,由此也降低了相关的依赖性,其结果是,你可把"硬件"当成"软件",并在单一开发环境中编写代码,使硬件和软件更优化地一同工作。不需要花费巨大的开发资源来手工调校代码,只需高亮标出运算热点,编译器就会以硬件的形式实现它。这些热点区域作为扩展指令实现,应用型处理器可将其视为传统的指令,并在同一流水线中执行。此处的差异在于,扩展指令可表现为成百上千条C指令,在单一时钟周期内高效地执行和计算。

  基本FIR转换器

  FIR转换器可把热点区域以并行的方式实现,在此,我们讨论的重点是对一个转换器,怎样通过C的实现来硬件加速,这种优化的理念也可应用于其他算法。

  可用以下方程式来描述一个FIR转换器:

t=T-1
y(n)=SUM ((h(t)*x)(n-t)) for n=0,...N-1
t=0

  x(n)在此是输入信号,y(n)是输出信号,h(t)是FIR转换器系数,图1为一个直观的FIR函数示意图,格子内的每一点,代表了系数h(t)与数据点x(n-t)的乘积,而每条斜线上的所有乘积全部相加才能得到输出的y(n)。例1是对FIR转换器一个直接用C语言的实现方法。利用此实现,一个使用T=64和N=80的64路转换器执行完,将大约需要27230个时钟周期。而这种固有的并行架构,使它成为一个非常适合于实际应用中硬件加速的候选方案。

点击放大此图片
图1:FIR函数示意图

  例1:

void fir(short *X, short *H, short *Y, int N, int T)
{
 int n, t, acc;
 short *x, *h;
 /* 转换器输入 */
 for (n = 0; n < N; n++) {
  x = X;
  h = H;
  acc = (*x--) * (*h++);
  for(t = 1; t < T; t++) {
   acc += (*x--) * (*h++);
  }
  *Y = acc >> 14;
  X++;
  Y++;
 }
}
    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章