CoCoPIE成功在1000美元通用芯片上实现L4级别自动驾驶_数字经济

首页 > 正文

CoCoPIE成功在1000美元通用芯片上实现L4级别自动驾驶

近年来，诸如自动驾驶、图像识别、语音识别等各种与机器学习相关的研究成果与应用层出不穷，机器学习能够处理的任务也愈发的复杂。苹果、亚马逊、谷歌等巨头公司每年都会花费数亿美元经费来研发机器学习专用硬件加速器，让人工智能真正地进入到人们生活中。但是，在如此巨大的资金注入下，硬件加速仍成效甚微。芯片及硬件的开发成本高昂且开发周期漫长，在硬件上难以突破，是否换个思路？通过软件技术优化硬件未被开发出来的潜力。

发布时间：2021-12-22 10:51 来源：数字经济杂志作者：慎熙鹏 CoCoPIE公司CTO

CoCoPIE换思路提出软件优化AI芯片算力
CoCoPIE是成立于2020年的人工智能初创公司，打破了AI领域的常规思路。即不用AI加速硬件也能在现有设备上实现实时的AI应用。CoCoPIE总部位于美国，今年在中国成都设立办事处。目前已完成数千万元A轮融资，投资方为红杉中国种子基金、初心资本等机构。创始团队包括来自美国东北大学的王言治教授、北卡罗来纳州立大学的慎熙鹏教授及威廉玛丽学院的任彬教授，团队成员还有来自谷歌、阿里巴巴达摩院、英特尔等公司资深架构师。
CoCoPIE以“在loT以及移动端普及实时人工智能”为公司愿景，推出了CoCo-Gen和CoCo-Tune两款工具链。CoCo-Gen将基于模式的DNN剪枝与基于模式的感知生成代码相协同，生成高效的 DNN 执行代码。CoCo-Tune则能够显著缩短确定要修剪的适当DNN参数集的过程。通过有效的“压缩-编译”协同设计，在没有特殊硬件加速器的情况下，使用现有边缘设备依然可以实现人工智能的实时化，并且在性能上超越了特殊硬件加速器。
CoCoPIE认为在深度学习模型本地化运算的过程中，CPU、GPU、DSP等尚有很大潜力没有被开发出来，通过优化压缩和编译的过程，能够使得以往无法运行在某些终端设备上的神经网络得以在这些终端设备上运行。目前，CoCoPIE的客户包括腾讯、Cognizant等。在与腾讯合作的过程中，CoCoPIE将其在终端的压缩-编译技术应用在腾讯的服务器端，帮助腾讯企业增强人工智能的端侧部署能力。CoCoPIE用技术帮助Cognizant大量的客户实现人工智能的本地化运行。

CoCoPIE为L4自动驾驶系统“速降”成本
CoCoPIE的技术打破了AI领域的常规思路。即不用AI加速硬件也能在现有设备上实现实时的AI应用。AI在当前主流终端硬件上的实现方式是，设备将数据发送至云端进行运算处理，处理后再发回至设备。这其中存在三个主要问题：一是应用程序的运营方需要负担巨大的服务器成本和带宽成本。二是因为需要传送至云端，应用体验有时延在所难免。三是在网络环境不好的区域，无法使用AI技术。因此，将AI运算本地化是一个更优的解题思路，这也是为什么众多厂家大力投入AI专用硬件的研发。基于CoCo-Gen和CoCo-Tune，CoCoPIE实现了很多AI应用的移动实时化，为自动驾驶、人机对话等广泛应用提供了技术基础。
从目前整个行业看，所谓的自动驾驶还只是停留在L2级和L3级这个水平上，距离真正的自动驾驶——L4级以上，还有不小的距离。阻碍自动驾驶真正走进人们生活的，除了技术成熟之外，还有成本的限制。目前正在生产的自动驾驶汽车仍然非常昂贵，一个实验模型就可能需要花费大约30万美元左右。其中最昂贵的组件之一就是搭载执行自动驾驶软件系统的硬件，花费动辄上万美元。
日前，CoCoPIE宣布了一项新的技术研究成果，成功地在1000美元级别的通用芯片上实现L4级别自动驾驶。在此前，L4级别的自动驾驶只能在上万美元级别的AI定制化芯片上实现。芯片大致可以分为通用芯片和专用芯片两大类。通用芯片包括CPU、GPU、DSP等，装载于手机、电脑等设备；而专用芯片则包括FPGA、ASIC等，用于特定运算。不难发现未来AI芯片不可能一直向着大能耗的硬件方向一直发展，所以新的算法、新的框架将是未来的发展方向。
而CoCoPIE这项新成果通过论文形式进行发表，该实验使用Nvidia Jetson AGX Xavier处理器运行L4级别的自动驾驶。一般而言，在Nvidia的全套产品线中，ORIN或Pegasus是为自动驾驶汽车提供算力的系列，上述三个系列的计算能力、应用场景及功耗对比如下：
·NVIDIA DRIVE Orin：254TOPS / L2+级自动驾驶 / 130 W
·NVIDIA DRIVE AGX Pegasus：320TOPS / L4级自动驾驶 / 500W
·NVIDIA Jetson AGX Xavier：32TOPs / AI驱动的自主机器 / 10W
也就是说，CoCoPIE用约为1/10的计算能力及1/50的功耗即可达到与高端芯片相同的应用效果，在实验所涉及的6个自动驾驶任务中，计算准确率及时延均满足L4级别自动驾驶的要求。这项技术的核心是运行时的优化，使得AI模型更好得适应底层芯片的特点，并更充分地利用底层异构芯片的性能。可以应用的场景包括各种AI应用，尤其是那些涵盖多个AI模型的应用。此次新技术突破主要是解决了芯片现有解决方案的三个缺陷。第一，当预先调度方案应用于部署到单个低端设备的自动驾驶应用程序时，会产生计算资源的紧缺。CoCoPIE通过即时优先级调整（just-in-time priority adjustment）来解决“调度饥饿”的问题。第二，CoCoPIE采用一种硬件感知模型定制（hardware-aware model customization）的方法，通过弥合DNN模型与多种类型的加速器之间的差距，用以提高加速器的利用。第三，CoCoPIE提出基于 DAG 实例化的调度（instantiation based scheduling），这是一种通过基于加速器的 DAG 实例化扩展自动驾驶调度以满足需求的方法，主要用于解决多种类型加速器的混合工作负载问题。
L4自动驾驶中使用的软件非常复杂，包括多个深度神经网络来完成计算机视觉识别，这种识别包括行人、路障、信号灯、其他车辆以及路线等。所要求的运算量特别大，同时要求自动驾驶车辆做出实时反应，这也造成 L4很难在低端机上运行，从而使系统成本居高不下。而CoCoPIE提出的新技术最大的成果是能在低端机上将L4很好地运行起来。新技术最根本是达成了全栈的优化，包括从模型优化到代码生成再到运行时的资源调度。这些方面都会有所优化，并且是通过协同一起进行优化，大大减少运算而不影响智能模型的准确性。
目前该技术正在与自动驾驶公司Perceptin进行落地合作的探索。在未来几年，CoCoPIE主要精力还是放在技术以及产品开发上，将建立起一个完整的AI软件栈，包括一套全自动的AI model优化和代码生成工具，高度优化的AI模型及其应用和平台集成SDK，以及平台自适应运行时引擎。