Etched公司近日发布了其专为Transformer架构大模型研发的ASIC芯片Sohu,声称其在AI大型语言模型(LLM)推理方面的性能超过了Nvidia的H100。作为一家专注于Transformer芯片的初创公司,Etched表示,一台配置8个Sohu芯片的服务器,其性能相当于160个H100 GPU。这一性能提升意味着数据中心将能够显著节省初始投资和运营成本。
Etched公司没有制造通用的AI芯片,而是专注于仅与Transformer模型配合使用的芯片。据介绍,目前的AI加速器(无论是CPU还是GPU)设计用于支持多种AI架构,如卷积神经网络、长短期记忆网络和状态空间模型。这种通用性导致了硬件必须分配大量计算能力用于可编程性,而非特定任务。
大多数大型语言模型(LLM)主要使用矩阵乘法进行计算,Etched估计Nvidia的H100 GPU仅有3.3%的晶体管用于这一关键任务。剩余的96.7%的晶体管被用于其他任务,这些任务对于通用AI芯片仍然重要。然而,Transformer架构近年来变得非常流行,如ChatGPT等流行的LLM,以及其他竞争模型如Sora、Gemini、Stable Diffusion和DALL-E,都是基于Transformer模型的。
Etched几年前启动了Sohu项目,将Transformer架构直接嵌入到硬件中,从而将更多的晶体管分配给AI计算。类似于处理器和图形卡的区别,当前的AI芯片更像CPU,能够执行多种任务,而Sohu芯片则像专门处理图形的GPU,在特定任务上更加快速和高效。
Sohu芯片的推出,将为依赖Transformer模型的AI应用提供更高效的解决方案,推动数据中心在成本和性能上的优化。Etched的创新有望在AI芯片市场中引发新的竞争和变革。