芯原查凯南：NPU如何推进嵌入式智能设备发展-电子工程世界

6月13日，在芯原AI专题技术研讨会上，芯原NPU IP研发副总裁查凯南表示：“大模型对于现在最大的颠覆性在于，端侧模型和云端模型可以通过自然语言进行交互，显著提升智能效果。”

不过，云端和边端的分工有所不同。云端大多使用的是超级大模型，通常在70B以上，可能需要几百甚至几千张卡进行计算，同时云端能够同时胜任大模型的推理和训练任务。边端在算力、容量限制下，基本是在2B～13B的规模，除了语言模型，端侧还需要许多其它模型，比如视觉模型、语音模式、通用模型、图像生成、美图、PPT生成。

因此，为了满足端侧和云端的不同需求，NPU设计要求有所不同。端侧更关注低功耗、PPA（性能、功耗、面积）优化以及更好的隐私性，主要用于推理，同时需要具备浮点运算能力，重点在于低比特的量化及压缩能力。而云端则需要高性能、高TOPS（每秒万亿次运算）能力，进行分布式的推理和训练，要求较高的浮点和定点算力比例，以及高精度计算能力，同时，云端还需要与大型生态系统的兼容性。

端侧方面芯原拥有VIP9X00和GC9XX00AI AI-GPU IP，云侧则拥有CCTC-MP Tensor Core GPU IP。其中端侧的NPU IP能够高效地处理各类神经网络和计算任务，最小化数据传输，成为推动嵌入式智能设备发展的关键要素。

芯原的NPU主要分为DSA、嵌入式系统、数据中心三个方向。

值得一提的是，这些NPU IP基于GPU架构体系进行优化，利用可编程、可扩展及并行处理能力，为各类主流AI算法提供硬件加速的微处理器技术。

最新一代的芯原VIP9000系列NPU IP具备可扩展的高性能处理能力，适用于Transformer和卷积神经网络（CNN）。

此外，VIP9000系列还融合了4位量化和压缩技术，以解决带宽限制问题，方便在嵌入式设备上部署生成式人工智能（AIGC）和大型语言模型（LLM）算法，如Stable Diffusion和Llama 2。

在过去两年中，Transformer已经成为主导模型，不仅在大语言模型上表现出色，在视觉、语音、Pixel等领域表现优异，相对传统卷积神经网络，效果提升明显。

芯原的架构则针对Transformer进行了定制优化，最新的IP包含了针对Transformer的特定优化，包括4bit、8bit、16×4、16×8的量化压缩，显著减少了带宽的消耗。

对于通用运算的GEMM/GEMV以及矩阵运算中，在一个具有40～48TOPS算力的AIPC中，其性能可以提升10倍。

经过优化，芯原的NPU在Stable diffusion 1.5中，能够达到20 steps under 2 seconds，在LLaMA2 7B中能够达到20 Tokens/s，性能相当出色。

软件生态对于AI的发展至关重要，芯原则提供了非常通用的软件栈，配备了广泛成熟的软件开发工具包（SDK），支持各大深度学习框架，确保客户产品能够迅速投放市场。

在应用层，芯原支持PyTorch、Transformer、ONNXRuntime等框架。在工具方面，VLLM是芯原研发的专用于大语言模型的框架，特别适用于云端。结合芯原的Acuity工具包，芯原的NPU IP支持PyTorch、ONNX和TensorFlow等主流框架。

Triton是OpenAI发明的一种高级编译语言，芯原也计划支持Triton，芯原计划在2024年10月完成对Triton的完整接入，以实现开放式的高级语言支持。

值得一提的是，通过利用芯原的FLEXA技术，VIP9000可无缝集成于芯原的图像信号处理器（ISP）及视频编码器，实现低延迟的AI-ISP和AI-Video子系统，且无需DDR内存。此外，还可根据特定需求定制，以平衡成本和灵活性，适应对功耗和空间有严格限制的深度嵌入式应用环境。

目前，采用芯原NPU IP的IA类芯片已经在全球出货超过1亿颗，客户72家，推出AI SoC 128款，市场领域超过10个。

关键字：芯原 NPU IP 引用地址：芯原查凯南：NPU如何推进嵌入式智能设备发展

上一篇：芯原戴伟进：大模型已经来到了边缘
下一篇：芯原汪志伟：芯原IP、平台、软件整套解决方案，助力AIGC算力进一步升级

推荐阅读最新更新时间：2024-11-07 10:31

芯原与Alphawave加深合作，成为中国市场独家经销商

领先的芯片设计服务企业芯原股份宣布，已与多标准连接IP解决方案的全球领导者Alphawave IP Inc.（以下简称“Alphawave”）签定独家经销协议，芯原成为其在中国大陆地区、香港特别行政区、澳门特别行政区的唯一销售合作伙伴，拥有独家销售 Alphawave 的一系列多标准 SerDes IP 的权利，同时芯原成为 Alphawave 在全球范围内首选的 ASIC 合作伙伴。芯原创始人、董事长兼首席执行官戴伟民（Wayne Dai）表示：“Alphawave拥有世界领先的SerDes及相关技术。数字化、信息化时代的到来推动了数据中心/云服务器、人工智能、5G基础设施、数据网络、自动驾驶等相关应用的高速发展，对Ser

[半导体设计/制造]

恩智浦取得ArterisIP Ncore缓存一致性互连IP和Resilience套件授权

美国加利福尼亚州CAMPBELL，2017年9月19日——商用量产的片上系统（SoC）互连IP的创新供应商ArterisIP今天宣布，恩智浦半导体公司已经再次取得Ncore缓存一致性互连IP(Ncore Cache Coherence IP)和Ncore Resilience套件的授权许可。恩智浦前次参与了ArterisIP 2016年5月Ncore产品的发布。本次取得的许可为增加了更多用途的Ncore 2.0版IP以及新的Ncore Resilience套件。此外，恩智浦一直是FlexNoC非一致性互连IP的长期用户，并且已经取得了FlexNoC IP和FlexNoC Resilience套件的授权许可。 “我们在以前

[嵌入式]

矽昌通信获得CEVA IP授权许

CEVA，全球领先的智能和互联设备的信号处理平台和人工智能处理器IP授权许可厂商 (纳斯达克股票交易所代码：CEVA) 宣布国内领先的先进智能家居平台设计和供应厂商上海矽昌通信技术有限公司(矽昌通信)已经获得授权许可，在其瞄准智能家居接入点的最新系统级芯片(SoC)中部署使用CEVA的RivieraWaves 802.11ac Wi-Fi IP。 SF16A18是一款高度集成的单芯片解决方案，结合了灵活的RW-11AC IP和功能强大的处理引擎(双核CPU)及多个接口(以太网、GMAC、USB、SD、IIS)，是面向智能路由器/接入点、智能家居网关和智能扬声器的最佳平台。矽昌通信首席执行官李兴仁表示：“高度集成的优化Wi

[物联网]

Actel 标准软件套装提供免费IP核使用权和RTL套装

爱特公司(Actel Corporation)宣布，其Libero® 黄金(Gold) 版本用户现在可以免费访问IP库，而Libero 白金(Platinum)版本则加入RTL IP库源码，使得设计人员能够通过采用爱特经验证的IP模块系列，更轻易建立功能强大的设计。现在，功能全面的Libero集成式设计环境已包括超过50个IP核的使用权。 Actel Libero IDE Gold(金)版本支持最高150万系统门密度的 Actel FPGA产品，其包含的Actel IP 核经代码模糊处理，用户可轻易地将这些IP核加入设计之中，但不能作出修改。要了解有关Libero IDE的更多信息，请访问网页： www.a

[嵌入式]

基于OC8051IP核的仿真调试方案在FPGA中实现下载测试

20世纪80年代初，Intel公司推出了MCS-51单片机，随后Intel以专利转让的形式把8051内核发布给许多半导体厂家，从而出现了许多与MCS-51系统兼容的产品。这些产品与MCS-51的系统结构相同，采用CMOS工艺，因而常用80C51系列来指代所有具有8051指令系统的单片机。在80C51系列中，OC8051以架构清晰、取指带宽大、时钟效率高等诸多优点受到业内人士的青睐。本文在分析OpenCores网站提供的一款OC8051IP核的基础上，给出了一种仿真调试方案;利用该方案指出了其中若干逻辑错误并对其进行修改，最终完成了修改后IP核的FPGA下载测试。 1 OC8051结构分析 OpenCores网站提供的OC805

[单片机]

基于OC8051<font color='red'>IP</font>核的仿真调试方案在FPGA中实现下载测试

博世推出智能跟踪 IP摄像机AutoDome 700

博世安防系统针对AutoDome 700系列IP PTZ摄像机添加了全新的智能跟踪功能，这归功于新的 5.51 固件。智能跟踪技术使用AutoDome产品内置的智能视频分析（IVA）可持续监控活动画面，并自动跟踪摄像机范围内的移动物体。　　配备了智能跟踪技术的AutoDome摄像机为整体监控带来了许多益处，利用自动监控系统帮助安保人员能将目标物体的一举一动尽收眼底。有了这个功能，客户可以使用博世的 IVA 规定立刻激活跟踪的任务或条件。例如，摄像机可以编程跟踪以特定方向通过区域的车辆。操作人员还可以通过点击实时视频中的移动物体以激活跟踪对象，促使摄像机通过水平、垂直或缩放操作来确保物体一直

[安防电子]

Leon2处理器IP核技术（一）

Leon2是GaislerResearch公司于2003年研制完成的一款32位、符合IEEE-1754(SPARCVS)结构的处理器IP核。它的前身是欧空局研制的Leon以及ERC32。Leon2的目标主要是权衡性能和价格、高的可靠性、可移植性、可扩展性、软件兼容性等．其内部硬件资源可裁剪(可配置)、主要面向嵌入式系统，可以用FPGA／CPLD和ASIC等技术实现。 Leon2处理器的片上资源如下：分离的指令和数据Cache、硬件乘法器和除法器、中断控制器、具有跟踪缓冲器的调试支持单元(DSU)、2个24位定时器、2个通用异步串口(UART)、低功耗模式、看门狗电路、16位I/O端口、灵活的存储控制器、以太网MAC和PC

[模拟电子]

Leon2处理器<font color='red'>IP</font>核技术（一）

基于IP机顶盒的视频点播系统

　　对于大多数普通人来说，对机顶盒的认识始自微软的维纳斯计划。1999年3月，比尔?盖茨来到中国的深圳，亲自为其雄心勃勃的维纳斯计划摇旗呐喊，力图挺进中国的信息家电领域。推广嵌入微软Windows CE系统的机顶盒是微软为中国定制的维纳斯计划的核心，但耗资数十亿美元的结果却是无疾而终。不少专家分析认为，这个宏伟的计划之所以失败，很大程度上缘于中国当时的网络基础设施薄弱。　　宽带应用是宽带网络竞争真正的主宰者，而网络的流媒体技术则是最重要的宽带应用之一。作为流媒体技术的龙头应用，视频点播的产生转变了传统互联网呆板的内容表现形式，赋予宽带应用更多的娱乐性和互动性，日益成为促进宽带网络普及的重要推动力。　　VOD 类似于 PVR

[家用电子]

热门资源推荐
热门放大器推荐

小广播