|
11月13日,安謀科技(中國)有限公司在上海舉辦新品發布會,正式推出新一代神經網絡處理器IP——“周易”X3。這款基于創新DSP+DSA混合架構的NPU專為端側大模型計算設計,在AI推理性能上實現突破性提升,為基礎設施、智能汽車、移動終端和智能物聯網四大核心領域提供強勁的AI算力支撐。 “周易”X3從計算效率、帶寬、精度適配、任務處理四大維度實現升級,精準解決端側AI大模型運行難題。其單Cluster最高支持4個Core,擁有8 - 80 FP8 TFLOPS算力且可靈活配置,單Core帶寬高達256GB/s。相較于上一代產品“周易”X2,“周易”X3的CNN模型性能提升30% - 50%,多核算力線性度達到70% - 80%。在同算力規格下,AIGC大模型能力較上一代產品實現10倍增長,這得益于16倍的FP16 TFLOPS、4倍的計算核心帶寬、超過10倍的Softmax和LayerNorm性能提升共同驅動。在實際測試中,“周易”X3在Llama2 7B大模型實測中表現出色,Prefill階段算力利用率高達72%,并在安謀科技自研的解壓硬件WDC的加持下,Decode階段有效帶寬利用率超100%,遠超行業平均水平,滿足大模型解碼階段的高吞吐需求。
“周易”X3在架構層面實現了多項創新,集成自研解壓硬件WDC,使大模型Weight軟件無損壓縮后通過硬件解壓能獲得額外15% - 20%等效帶寬提升;新增端側大模型運行必備的W4A8/W4A16計算加速模式,對模型權重進行低比特量化,大幅降低帶寬消耗,支持云端大模型向端側的高效遷移;集成AI專屬硬件引擎AIFF(AI Fixed - Function)與專用硬化調度器,實現超低至0.5%的CPU負載與低調度延遲,靈活支持端側多任務場景和任意優先級調度場景,確保高優先級任務的即時響應;支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合計算,強浮點計算,可靈活適配智能手機邊緣部署、AI PC推理、智能汽車等從傳統CNN到前沿大模型的數據類型需求,平衡性能與能效。 除了高性能硬件,“周易”X3還配套完善易用的“周易”Compass AI軟件平臺,通過“軟硬一體”的協同設計,讓開發者從“好用”到“用好”,顯著提升開發部署效率。Compass AI軟件平臺通過覆蓋開發全流程的工具鏈、極致的易用性優化與開放的生態布局,破解端側AI開發“適配難、周期長、門檻高”的痛點。其核心工具NN Compiler(神經網絡編譯器)集成Parser(模型解析)、Optimizer(優化器)、GBuilder(生成器)及AIPULLM(大模型運行工具),可實現主流模型的高效轉化、自動化優化與部署配置生成。該平臺支持超160種算子與270種模型,兼容TensorFlow、ONNX、PyTorch、Hugging Face等主流AI框架,提供開箱即用的Model Zoo。通過AIPULLM工具鏈,直接支持Hugging Face格式模型,實現“一站式”轉化與部署,極大降低開發門檻。同時,平臺實現業界領先的大模型動態shape支持,高效處理任意長度輸入序列;提供包括Tensor/Channel/Token Level多樣量化方式,以及GPTQ等大模型主流量化方案,并增加對LLM/VLM/VLA及MoE等模型的高性能支持,保障推理精度并實現云到端快速遷移。此外,平臺還提供多種開放接口,支持用戶模型與自定義算子的開發與調試;配備豐富的調試工具與Bit精度軟件仿真平臺,支持多層次白盒開發與性能調優;支持Android、Linux、RTOS、QNX等多種操作系統,并通過TVM/ONNX實現SoC異構計算,高效調度CPU、GPU、NPU等計算資源。 安謀科技產品研發副總裁劉浩表示:“在‘All in AI’產品戰略的指引下,我們將持續加大投入,以前瞻性視野整合頂尖研發資源,秉持開放合作理念,為生態伙伴提供從硬件、軟件到服務的端到端解決方案,全力賦能伙伴的產品創新和商業化落地!贝舜巍爸芤住盭3的發布,進一步完善了安謀科技在端側人工智能領域的布局。自2018年獨立運營以來,安謀科技在自研業務方面積極布局,推出了包括“周易”神經網絡加速器、“星辰”中央處理器、“山海”服務處理單元、“玲瓏”視覺處理器單元及數據處理器等自研業務產品線。目前,安謀科技在國內的授權客戶已超過440家,累計芯片出貨量突破425億片。 |