第一百九十九章 五百卡?起步 路大头
个事情他做过一遍了,再做一遍当然是十拿九稳。
实际上现在见识过了源智科技的技术潜力,他觉得不止是五百卡、千卡的集群,就算是万卡也不是不能尝试。
要知道,想把显卡集群做大,其中的技术难度是指数级上升的。
因为真正的挑战来源于在使用过程中,集群里的各个节点之间的通信。想要完成大模型的训练,就要让各个节点之间数据完全同步。假设只有十个人,想要让他们互相交流一个信息,不是什么太难的事情;可是如果扩大到一百个、一千个人,每个人都各自在做自己的事情,即使是简单的信息同步也很难做到。
而且万卡集群比起千卡集群,运算速度并不能提升十倍,受通信带宽的限制,能达到七八倍就不错了。
成本极高,收益不大,既然这样,那为什么还要做万卡集群呢?直接做很多个小集群不行吗?
那是因为万卡集群能做到千卡集群做不到的事情,就是训练超大模型。
基于现在的大模型理论,模型越大,参数越多,模型的能力就越强。可是想要把那么多信息训练到一个模型里,就需要能够同时容纳所有原始信息的内存,只有使用万卡这个规模的集群,才有可能训练出这样的超大模型来。
可以说万卡集群才是英伟达体系王冠上的明珠。
而现在,江松然已经有野心在源智科技用国产显卡挑战万卡集群了。
当然了,ai训练用显卡的成本,即使国产的成本低很多,单卡价格也在十万元人民币以上。要做万卡集群,单是显卡成本就要十亿。更别说这个级别的集群,配套的机房、电力、冷却、存储等等成本加起来是显卡本身的一倍左右,万卡集群的总投入要在二十亿以上。
但是这些事情江松然都不担心。那不是ceo应该担心的问题吗?他相信到时候韩路一会解决的。
这些念头在江松然的脑子里转了一圈,什么都没说出口。
只是他那颗因为家中变故而变得沉寂的心,突然又火热起来了。