高效低耗计算快，CEVA 新推的 DSP 独领风骚

本文作者：章敏

2016-09-28 17:31

导语：CEVA 今天发布第五代图像和计算机视觉 DSP 产品 CEVA-XM6，具有更优的性能、更强大的计算能力，以及更小的耗能。

导读：CEVA 今天发布第五代图像和计算机视觉 DSP 产品 CEVA-XM6，具有更优的性能、更强大的计算能力，以及更低的耗能。深度学习、神经网络、图像/视觉处理已经是计算机科学中很大的一些领域，然而它们依赖的许多工具仍处于初步阶段。机器学习需要的实时、精确处理数据的能力也往往耗费很大。

注：本文首发于 ANAND TECH，作者 Ian Cutress，由雷锋网编译，未经许可不得转载。

高效低耗计算快，CEVA 新推的 DSP 独领风骚

深度学习，神经网络和图像/视觉处理已经成为一个很大的领域，然而，许多依赖它的应用程序仍然处于初步阶段。汽车是应用这些领域最典型的例子，而解决汽车面临的问题，需要同时深度理解和发展硬件与软件，实时高精度处理数据的能力，为其他机器学习编码打通了一系列道路，接踵而至的问题则是成本和功耗。CEVA-XM4 DSP 想成为第一个支持深度学习的可编程 DSP，且就在今天，有着软件生态系统的新型 XM6 IP 也被推出，其效率更高，计算能力更强，还有新的节能专利。

玩 IP 游戏

当 CEVA 宣布 XM4 DSP 推断定点算法中预训练的精度与全算法基本一样，误差不到 1 %时，它赢得了该领域许多的分析师奖项，CEVA 称高性能和功率效率让其从竞争，及软件框架的初步进展中脱颖而出。IP 公告发布于 Q1 2015 季度，第二年获得了许可证，第一批使用 IP 生产的硅钢将于今年下线。此后，CEVA 发布了其 CDNN2 平台，它是一款一键编译工具，训练网络，并将其转换成适合 CEVA XM IPS 的代码。新一代 XM6 整合了历代 XM4 的特点，改进了配置，可以访问硬件加速器，还拥有新型的硬件加速器，而且，它还保留着 CDNN2 平台的兼容性，这样的编码可兼容 XM4，也可以在 XM6 上高性能运行。

CEVA 属于 IP 业务，如 ARM，并与半导体公司合作，然后卖给 OEMs 。这通常需要很长的时间，来将新产品从构思实际推入市场，尤其是在安全和汽车等行业正快速发展时。CEVA 将 XM6 改成了一种可扩展的、可编程的 DSP，它可以用单一的代码库横跨市场，同时利用额外的功能来改善功率、性能，并降低成本。

高效低耗计算快，CEVA 新推的 DSP 独领风骚

今天的公告中，包括新型 XM6 DSP，CEVA 新系列的图像和视觉软件库，一套新的硬件加速器，并将其融入 CDNN2 生态系统。CDNN2 是一款一键编译工具，检测卷积，并应用优于逻辑块和加速器的最佳方法传输数据。

高效低耗计算快，CEVA 新推的 DSP 独领风骚

XM6 将支持 OpenCL 和 C++ 开发工具，以及软件元素包括 CEVA 的计算机视觉、神经网络和有着第三方工具的视觉处理库。硬件为标准 XM6 核心的处理部分实现了AXI 连接，从而与加速器和内存交互。XM6 IP 里面有卷积的硬件加速器 CDNN 助手，它允许低功率固定功能硬件，处理神经网络系统的疑难部分，如 GoogleNet，校正鱼眼上的图像或扭曲镜头，图像的失真已知，变换的函数是固定功能友好型的，以及其他的第三方硬件加速器。

高效低耗计算快，CEVA 新推的 DSP 独领风骚

XM6 的两大新硬件功能，将帮助大多数图像处理和机器学习算法。第一个是分散-聚集，或者说是阅读一个周期中，L1 缓存到向量寄存器中的 32 地址值的能力。CDNN2 编译工具识别串行代码加载，并实现矢量化来允许这一功能，当所需的数据通过记忆结构分布时，分散-聚集提高了数据加载时间。由于 XM6 是可配置的 IP，L1 数据储存的大小/相关性在硅设计水平是可调节的，CEVA 表示，这项功能对于任意尺寸的 L1 都有效。此级用于处理的向量寄存器是宽度为 8 的 VLIW 实现器，这样的配置才能满足要求。

高效低耗计算快，CEVA 新推的 DSP 独领风骚

第二功能称为“滑动-窗口”数据处理，这项视觉处理的特定技术已被 CEVA 申请专利。有许多方法可以处理过程或智能中的图像，通常算法将立刻使用平台所需一块或大片像素。对于智能部分，这些块的数量将重叠，导致不同区域的图像被不同的计算区域重用。CEVA 的方法是保留这些数据，从而使下一步分析所需信息量更少。听起来是否很简单，在 2009 年，我做了类似的三维微分方程分析，确实是这样，我很惊讶，它之前并没有实现视觉/图像处理。如果你有地方存储的话，重复使用原始数据，就可以节省时间，节省能源。

高效低耗计算快，CEVA 新推的 DSP 独领风骚

CEVA 称 XM6 在重矢量工作量中的性能增益是 XM4 的 3 倍，同比移植内核平均提升了 2 倍。XM6 在编码方面也比 XM4 更容易配置，提供“ 50% 额外的控制”。

高效低耗计算快，CEVA 新推的 DSP 独领风骚

结合具体的 CDNN 硬件加速器（HWA），CEVA 指出，生态系统中的卷积层，如 GoogleNet 消耗了周期中的大部分时间。CDNN HWA 采用了此编码，并用 512MACs 为它实现了固定的硬件，使用 16 位支持实现了 8 倍的性能增益，且利用率为 95%。CEVA 提到使用 12 位的方法将节省芯片面积和成本，同时最小化精度损耗，但也有一些开发商要求用完整的 16 位方法，以支持未来的项目，因此，结果是选择了 16 位。

高效低耗计算快，CEVA 新推的 DSP 独领风骚

在该领域的汽车图像/视频处理方面，CEVA 有两大竞争对手，分别是 MobilEye 和 NVIDIA ，后者推出了 TX1 以促进神经网络的训练和推理。基于 690 MHz 情况下，TX1 在 TSMC 20nm 的平面处理技术，CEVA 说，他们内部模拟给出的单体 XM6 在平台方面效率提升了 25 倍，而且，比 AlexNet 和 GoogleNet 速度快四倍。当然，尽管 XM6 也可以在 16nm 或 28nm 的 FinFET 运行，但这些都是其在 20nm 情况下运行的结果。这意味着，根据单批 TX1 公布的数据，XM6 在 FP16 使用 Alexnet ，相比 67帧/秒，它可以执行每秒运行 268 帧图像，相比于 5.1 w，它只要 800 mW。在 16FF 中，功率的数值可能更低，CEVA 告诉我们，他们内部度量最初是在 28 nm / 16FF 情况下完成的，但他们在 20 nm 情况下，使用了 TX1 对其各个方面重新进行了度量。应该指出的是，TX1 多批次的数值表明，其效率比单批次更好，然而，它没能提供其他更多的对比值。CEVA 还用 DVFS 方案实现了功率门控，当 DSP 的各个部分或加速器空闲时，可降低功率。

很明显，NVIDIA 的优势是其解决方案的可用性，和 CUDA/OpenCL 软件开发，这两方面 CEVA 都想通过一键软件平台来实现，如 CDNN2 ，并改善硬件，如 XM6 。看看哪些半导体合作伙伴和未来的实现工具，能将这种图像处理与机器学习结合起来。CEVA 指出，智能手机、汽车、安全和商业应用，如无人机、自动化将是主要目标。

Via：ANAND TECH