之前 5090?Project DIGITS?Ryzen AI Max+ 395?有哪些想买的AI产品 简单聊过 AI MAX 395 这个APU。 作为AMD的第一代核显性能和独显打平的APU,我个人还是非常感兴趣,于是斥巨资买了一台幻x2025款。 因为不确定其除了LLM能力(绝大部分宣传稿提到的),在通用AI领域能力相比4060版本怎么样(比如生图、生成视频、跑各种AI库等等),所以买了个丐版先尝尝鲜。相比于395版本的满血40CU,丐版390的显卡核心为32CU,理论性能相差20%。 390-8050s AI MAX 395满血TDP是120w左右,幻x只有90w手动模式,无法完全释放性能,而且有溢价。 所以真正比较实惠的还是买MINI主机版本,现在有很多厂商下场在做了,包括前几天已经开始发售的极摩客evo-x2,未来一两个月还会有fevm、零刻、玲珑等厂商做mini主机,这个性价比会高些。 RTX 4060的性能 我们先看下4060的性能,4060比较特殊,笔记本和桌面端除了功耗上限外,硬件配置基本一致。 按照官方展示的算力来计算,列两个关键的指标: Tensor Core fp16算力,非稀疏,60.5 TFlops ,换算成FP8的话,翻个倍,而Cuda Core fp16的算力为 15.11 TFLOPS 带宽 272g/s 、TGP为115W 因为FP16是最常用的精度,就以FP16为准。虽然实际中tensor core和cuda core可以同时执行,但是理论算力不可能叠加(因为每个sm的资源限制,一般来说跑tensor core就没资源跑cuda core),所以这里按照4060最大tensor core算力来算,也就是60.5Tflops。 当然tensor core的适用性不如cuda core,因为目前现在大部分AI任务都是基于矩阵乘法,所以可以近似地按照这个算力来估算 AI MAX 395 / 390 介绍 AI MAX 395的核显为8060s和我这个丐版390的核显8050s,两者代号都为gfx1151,FP16算力分别是60 tflops 和45 tflops。 可以看到8060s的fp16算力基本和4060的fp16算力相当。 理论算力怎么来的 简单分析下,因为8060s基于RDNA3.5架构,和RDNA3的RX 7900架构基本一致,所以直接借用RDNA3的数据来分析: 8060s架构和RX7900基本一致 通过上表可以得到,核显中的 CU 每个周期可以执行 512 次fp16/bf16/INT8的乘加操作,1024次INT4的乘加操作。在最大时钟频率 2.9GHz 下,其峰值性能应为 59.4 FP16/BF16 TFLOPS,通过这个公式可以计算出来,接近60TFLOPS,和4060相当。 ...