GPGPU 架构基于SIMT架构的可伸缩计算引擎,自主定义的丰富指令集支持GPU通用并行编程模型。内建FP32/FP16/BF16/INT多种数据类型指令,支持混合精度AI训练。CoWoS HBM2 7 纳米制程、容纳240亿晶体管,2.5D CoWoS封装,提供1.2TB/s超大带宽和32GB超大容量内存,给海量数据并行处理引擎提供充足的数据支持。主流生态兼容,支持主流的深度学习开发框架,兼容主流GPU的编程模式,有效对接现有软件生态,易于扩展支持新的算法与应用领域,帮助用户轻松实现无痛迁移。
思元220芯片基于寒武纪MLUv02架构,手指大小的标准M.2加速卡集成了8TOPS理论峰值性能,功耗仅为8.25W,可以轻松实现终端设备和边缘端设备的AI赋能方案。MLU220-M.2加速卡可广泛应用于智能电网、智能制造、智慧轨交、智慧金融等边缘计算场景。支持视觉、语音、自然语言处理以及传统机器学习等多样化的人工智能应用,实现各种业务的边缘端智能化解决方案。
思元270-S4加速卡功耗仅为70W,处理非稀疏人工智能模型的理论峰值性能提升至上一代思元100的4倍,可广泛支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用,帮助AI推理平台实现超高能效比。
思元270芯片采用寒武纪MLUv02架构,搭载EOTS(Edge outlet thermal system)主动散热技术的MLU270-F4,可轻松胜任非数据中心部署环境。可支持最高150W散热功率,在面向繁重AI推理任务时,思元270的推理性能可充分发挥。思元270处理非稀疏人工智能模型的理论峰值性能提升至上一代思元100的4倍,可广泛支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用,为您的个人电脑和工作站提供专业的AI加速能力。
MLU370-S4加速卡采用思元370芯片,TSMC 7nm制程,寒武纪新一代人工智能芯片架构MLUarch03加持,支持PCIe Gen4,板载24GB低功耗高带宽LPDDR5内存,板卡功耗仅为75W,相较于同尺寸GPU,可提供3倍的解码能力和1.5倍的编码能力。MLU370-S4加速卡的能效出色,体积小巧,可在服务器中实现高密度部署。
MLU370-X4加速卡采用思元370芯片,为单槽位150w全尺寸加速卡,可提供高达256TOPS(INT8)推理算力,和24TFLOPS(FP32)训练算力,同时提供丰富的FP16、BF16等多种训练精度,配合全新基础系统软件平台,可充分满足推训一体AI任务需求。
MLU370-X8采用双芯思元370配置,为双槽位250w全尺寸智能加速卡,提供24TFLPOS(FP32)训练算力和256TOPS (INT8)推理算力,同时提供丰富的FP16、BF16等多种训练精度。基于双芯思元370打造的MLU370-X8整合了两倍于标准思元370加速卡的内存、编解码资源,同时MLU370-X8搭载MLU-Link多芯互联技术,每张加速卡可获得200GB/s的通讯吞吐性能,是PCIe 4.0带宽的3.1倍,可高效执行多芯多卡训练和分布式推理任务。