传DeepSeek正准备适配中国国产GPU

Moderator: leo

Post Reply
User avatar
JohnZhao
Posts: 19
Joined: Sun Jan 19, 2025 8:10 am
Contact:

传DeepSeek正准备适配中国国产GPU

Post by JohnZhao »

传DeepSeek正准备适配中国国产GPU.jpg
传DeepSeek正准备适配中国国产GPU.jpg (86.55 KiB) Viewed 1154 times
中国初创企业深度求索(DeepSeek)开发大语言模型时,据报绕过了英伟达的技术护城河CUDA框架。 (路透社档案照片)

中国初创企业深度求索(DeepSeek)研发大语言模型时据报绕过了美国人工智能巨头英伟达的CUDA框架,为DeepSeek在未来适配中国国产晶片做好准备。

由英伟达开发的软硬体整合技术“统一计算架构”(Compute Unified Device Architecture,CUDA)是一种通用编程框架,允许开发者利用英伟达的图形处理器(GPU)进行计算。

由于CUDA大大降低了研发大模型的难度,因此全球大模型开发商都倾向选择使用英伟达的CUDA技术,助力英伟达占据全球人工智能领域的垄断地位。

然而,据美国科技网站Tom’s Hardware报道,韩国未来资产证券在对DeepSeek技术论文进行分析时发现,该模型的硬件效率之所以能比Meta等高出10倍,因为“他们从头开始重建了一切”。

分析指出,DeepSeek在使用英伟达的H800晶片进行训练时,使用了英伟达的底层硬件指令PTX(Parallel Thread Execution)语言,而不是高级编程语言CUDA。

由于CUDA是通用型编程框架,会导致训练模型时损失一些灵活性。中国网媒“快科技”分析,DeepSeek的做法相当于绕过了硬件对训练速度的限制,意味着其他模型需要训练10天,而DeepSeek只需要五天。

然而,这种编程非常复杂且难以维护,行业通用的做法是使用CUDA这类高级编程语言。

快科技和腾讯网引述的消息人士指出,DeepSeek内部拥有一些擅长写PTX语言的内部开发者,假如DeepSeek未来有意改适配中国国产的GPU,在硬体适配方面将会更得心应手。
Post Reply

Who is online

Users browsing this forum: No registered users and 1 guest