美国现在大搞Tokenomics,卖token赚钱,难度在哪?
Token就是有智慧的比特信息流,因为NLP和大模型算法处理的最小单位是token,就这么叫了,简单可以理解为汉字的一个字。
但容易误解的是,以为token数据量很小,简单理解成电脑里的一个两个byte。汉字在电脑里就是用两个byte表示,英文字母一个byte。但token数据量非常大,一段话经过tokenizer分词后,变成一个个token,每个token可能好几千维。例如DeepSeek V4-Pro的一个token内部表示是7168维的浮点数(和V3一样),V4-flash也有4096维。
然后大模型还有一堆的Transformer在那搞事,理论上n个输入token,要互相建立“注意力”,就是n*n的关系。这就是DeepSeek V4有“1M上下文”的难点所在,如果直接对100万个token输入,硬搞n*n注意力,这直接内存就爆了,光这就是1万亿个数值。这还只是一层Transformer,有好几十层。所以算法需要大搞压缩,但因为有信息在里面,压缩也不能太多。最后,就发现全球内存不够用了价格大涨,三星、SK海力士利润上千亿美元。
所以,卖token代价很大,资源占用特别多。我们平常互联网查询,那基本是比特流,线性关系,最后给你多少信息,服务商处理的也是多少,成本很低。我们现在搞大模型聊天,得到好几千字的输出,里面算力是平方关系,还要乘以很大的系数,因为有很多层Transformer。更可怕的是agent模式,就是一个任务要反复调用大模型和工具很多轮,现在还标榜轮数越多越牛。而且大模型调用要有越来越长的“上下文”,不然大模型不知道前因后果。最后得到一个输出,往往是单纯聊天几十倍、百倍的token消耗。
这样,就和互联网的低成本不一样,卖token的Tokenomics是高成本模式。所以美国头部公司卖token标价非常高,算力成本非常高。目前还不能说跑通了,OpenAI已经出问题了,承诺的几千亿美元算力投资,不知道钱从哪来。
如果现在是互联网模式的成本,token生产成本低,那就没事了。现在搞到成本爆炸,GPU贵、内存贵、数据中心电力成本。
中国大模型大搞优化,信息压缩比例大,理论上智能会受一点点影响。成本优势可能会是决定性的,虽然最高智能不如,但日常通用也够了。目前已经是对上了,很有看点。
美国公司完全可以抄了中国开源大模型去,让用户低价用,一些美国公司已经这么做了。但是,如果美国高价token用量大减,最终也还是赚不到大钱。不知道有啥办法,似乎Tokenomics有根本矛盾在这。