在日前举行的Aspencore 2024全球CEO峰会上,炬芯科技股份有限公司董事长兼CEO周正宇博士发表了题为《Actions Intelligence:端侧AI音频芯未来》的主题演讲。在演讲中,他深入探讨了AI时代热潮及端侧AI所带来的新一代AI趋势,并分享了炬芯科技在低功耗端侧AI音频领域的创新技术与重磅产品。
炬芯科技股份有限公司董事长兼CEO周正宇博士
周正宇博士指出,在从端侧AI到生成式AI的广泛应用中,不同的AI应用对算力资源的需求存在显著差异。特别是在以语音交互、音频处理、预测性维护、健康监测等为代表的AIoT领域,许多端侧AI应用是专项应用,并不需要大模型和大算力。因此,炬芯科技的目标,是“在电池驱动的中小模型机器学习IoT设备上实现高能效的AI算力,以满足IoT设备对低功耗、高能效的需求。”
针对这一目标,炬芯科技提出了“Actions Intelligence”战略,该战略聚焦于模型规模在一千万参数(10M)以下的电池驱动的低功耗音频端侧AI应用。炬芯科技致力于在10mW-100mW之间的功耗下提供0.1-1TOPS的通用AI算力,挑战目标10TOPS/W-100TOPS/W的AI算力能效比。
根据ABI Research的预测,端侧AI市场正在快速增长,预计到2028年,基于中小型模型的端侧AI设备将达到40亿台,年复合增长率为32%。到2030年,预计75%的这类AIoT设备将采用高能效比的专用硬件。
然而,现有的通用CPU和DSP解决方案在算力和能效方面远远达不到这些目标。周正宇博士分析称,传统技术的能效之所以比较差,主要源于在传统的冯?诺依曼计算架构中,存储和运算是分离的,存在“存储墙”与“功耗墙”瓶颈,严重制约系统算力和能效的提升。
为了弱化或消除这些问题,炬芯科技采用了存内计算(Computing-in-Memory,CIM)结构,其核心思想是将部分或全部的计算移到存储中,让存储单元具有计算能力,从而消除数据访存延迟和功耗,实现存储与计算的真正融合。
在选择存储介质时,考虑到单芯片集成的需求,炬芯科技采用了标准SoC适用的CMOS工艺中的SRAM和新兴NVRAM(如RRAM或者MRAM)。SRAM工艺非常成熟,且可以伴随着先进工艺升级同步升级,读写速度快、能效比高,并可以无限多次读写。可以说,短期内,SRAM是在低功耗端侧AI设备上打造高能效比的最佳技术路径。长期来看,当RRAM技术成熟以后,SRAM与RRAM的混合技术有望成为最佳技术路径。
在此基础上,炬芯科技还创新性地采用了基于模数混合设计的电路实现CIM,在SRAM介质内用客制化的模拟设计实现数字计算电路,既实现了真正的CIM,又保证了计算精度和量产一致性。这种基于模数混合电路的SRAM存内计算(Mixed-Mode SRAM based CIM,简称MMSCIM)技术路径具有显著的优势,包括比纯数字实现的能效比更高、无需ADC/DAC、数字实现的精度和量产一致性高、易于工艺升级和不同FAB间的设计转换等。
目前,炬芯第一代(GEN1)MMSCIM已经在2024年落地,采用22纳米制程,每一个核可以提供100 GOPS的算力,能效比高达6.4 TOPS/W @INT8。而在后续的产品路线图规划中我们看到:
到2025年,炬芯科技将推出第二代(GEN2)MMSCIM,性能将相较第一代提高三倍,每个核提供300GOPS算力,直接支持Transformer模型,能效比也提高到7.8TOPS/W @INT8。
2026年,推出12纳米的第三代(GEN3)MMSCIM,每个核达到1 TOPS的高算力,支持Transformer,能效比进一步提升至15.6TOPS/W @INT8。
基于MMSCIM技术,炬芯科技成功打造出了下一代低功耗大算力、高能效比的端侧AI音频芯片平台,并正式发布了三个芯片系列:面向低延迟私有无线音频领域的ATS323X、面向蓝牙AI音频领域的ATS286X、以及面向AI DSP领域的ATS362X。
这三个系列芯片均采用了CPU(ARM)+ DSP(HiFi5)+ NPU(MMSCIM)三核异构的设计架构,通过将MMSCIM和先进的HiFi5 DSP融合设计形成了炬芯科技“Actions Intelligence NPU(AI-NPU)”架构。得益于此,炬芯科技实现了既高弹性又高能效比的NPU设计。
同时,为了支持开发者更好地利用炬芯科技的AI-NPU架构,炬芯科技还打造了专用AI开发工具“ANDT”。该工具支持业内标准的AI开发流程,如Tensorflow、HDF5、Pytorch和Onnx,并可自动将给定AI算法合理拆分给CIM和HiFi5 DSP去执行。借助炬芯ANDT工具链,开发者可以轻松地实现算法的融合,并迅速完成产品落地。
在实测中,炬芯科技GEN1 MMSCIM与HiFi5 DSP在运行同样参数的Convolutional Neural Network(CNN)网络模型进行环境降噪时,MMSCIM相较于HiFi5 DSP可降低近98%功耗,能效比提升达44倍。在测试使用更复杂的网络模型进行环境降噪时,MMSCIM也表现出了显著的功耗降低和能效比提升。
周正宇博士强调指出,未来,炬芯科技将继续加大端侧设备的边缘算力研发投入,通过技术创新和产品迭代,实现算力和能效比进一步跃迁,提供高能效比、高集成度、高性能和高安全性的端侧AIoT芯片产品,推动AI技术在端侧设备上的融合应用,助力端侧AI生态健康、快速发展。