ChatGPT-4训练成本揭秘:高达1-2亿美金
大模型多少钱?
训练一个像ChatGPT-4这样的AI大模型到底需要多少钱?周老板,现在成本其实还是挺贵的。以GPT-4为例,花费基本上在1到2亿美金。
举个例子,比如以GPT-4来看,GPT-4大概用了25000张A100,A100是英伟达的GPU,这个GPU不能只买一个GPU,还要把GPU插在机架里面组成一个互联集群,再放到一个数据中心里面。数据中心可能还有租赁的成本,大概划起来一张A100对应的集群的成本差不多可能要在3万美金左右。
25000张卡的费用合起来,买卡做集群成本就差不多7、8亿美金,所以大基建就要7。
是的。
但这个卡可能不一定能把所有的年限全用完,一般买一张卡能够用4年时间,但训练一个模型大概用一年时间,那就除以4。
对。
基本上体量也是在1到2亿美金的体量。
这只是硬件的成本,其实人员的成本,公司和公司之间技术水平不一样还会有差别。
对。
首先人的成本非常贵,因为能够训练大模型的人现在全世界都是非常稀缺的人才,在中国价格基本上肯定都是百万起了。在美国可能要把货币符号变一下,可能是百万美金起。
年薪非常贵。
除了人的成本以外,刚刚每一个公司训练一个GPT-4 level的模型,用的量可能也不一样。用的卡的数量可能也不一样,厉害点的人能少用点。
是的。
其实行业里面大概是有一个公式,根据参数量*数据量再乘以一个数字,这个数字一般叫6,乘6大概就是整体的算力的需求。但是这个6对不同公司里面有可能不是6,有可能7,有可能是8,取决于技术水准的差别。
突然理解为什么说AI是个大力出奇迹的行业,假如技术和人员没有别人那么出色不要紧,靠堆卡,是这个意思是吧?理论上是可以做到,相当于是多了几步试错,多了几步试错最后可能还是能找到正确的路径。
还听说一个观点就是每一代大模型的训练成本都会是上一代的10倍,这件事情想想很恐怖,现在是1、2亿美金,乘以10再乘以10,为什么会这样?现在这个规律如果还是建立在用同一种英伟达的GPU,它的训练成本基本上就是10倍。
这里面首先要建立一个认知,要让一个大模型变得更聪明,基本上现在唯一的方法就是给它灌更多的数据,让它有更多的参数,或者至少如果没有更多的数据,要更高质量的数据。
一个大模型的算力需求简单来看基本上就是数据增加的倍数再乘以参数增加的倍数再除以训练的周期,训练得越长占用GPU的时间就越长。以GPT-5为例,它的数据量可能是GPT-4的3-4倍,数据量就3-4倍,参数量可能又是5-6倍,这基本上就是15-20倍了。
就算把训练周期拉得长一点,稍微可以减少一部分,可能不需要用那么多的卡,稍微优化一点。但是整体来看用卡的数量或者去看的算力需求的数量也是10倍的级别。
这件事吓人的就是下一个比如像GPT-5,可能一家公司的利润还能扛得住,但是再往下其实得是多牛逼的公司才能够负担得起这么多的训练的钱。
这个问题其实是现在所有做大模型创业公司最难解决的问题,因为要做下一代模型,账上得有足够的钱,融资能力要非常强,10亿亿美金这个量级其实对于头部的这几家,中国有几家,美国有几家,还属于能够覆盖。
但是如果想象一下后面下一代模型要100亿或者50亿美金就属于不能覆盖了。如果中国有一个公司要用50亿美金去训练下一代的模型,那它的估值可能至少得两三百亿美金,两三百亿美金已经是一个非常大的互联网公司了。
但是能接受一个两三百亿估值的公司还没有很多商业场景一直在花钱做训练吗?很难接受。所以最后能够做下一代模型的公司就会逐渐的收敛,可能创业公司还会剩下几家,但最后就变成了大公司的游戏(独角兽),只有他们才能够巨鲸之间的游戏了,会慢慢集中,就是一部分公司就会训练越来越大的模型,当然越来越少。
比如类似于中国的字节跳动或者创业公司里面选最大的一到两家,美国的可能就是那几家美国的大的互联网巨头,剩下的很多大模型公司可能就得找别的生存出路,我要做得更定制化或者模型算力优化成本更低,就没有办法跟着其他的公司一样往越大越智能的模型去走了。
相关文章
大模型智能质疑:MM-Vet v2基准测试揭示新发现 (2024-10-3 19:59:38)
AI与人类创作的差异:独特想象力成文学不可替代的核心因素 (2024-9-17 21:48:7)
5大AI革命:轻松上手指南,开启智能生活新篇章 (2024-9-9 22:26:58)
AIGC技术的应用与市场影响:机遇与挑战并存 (2024-8-29 13:51:34)
无论是ChatGPT,还是萝卜快跑,正在改变我们的生活 (2024-8-14 11:7:48)
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。