这篇文章其实想了比较久,也写了比较久,从Deepseek V3发布就开始写(那时候还没有R1,也没有出圈),一直没有定稿发出来,一个是有些思考会随时变化(就像推理模型给的时间越长可能想的东西越多),一个是行业变化太快,多等半个月可能又出新东西了。到今天,吉卜力风格的漫画统治了推特一整天,感觉是该写完发出来了。当然,标题最开始也不是这个,是今天新改的。
我们分几个部分,分别聊Deepseek,机器人,大模型和AGI。
Deepseek
Deepseek,我自己的第一大应用是翻译。
虽然有点高射炮打蚊子,但是deepseek的V3用来做翻译比所有的所谓专门的机器翻译效果都要好,甚至翻译学术论文都不会有特别大的问题了。配合Chrome插件“沉浸式翻译“,接的是火山的deepseek API(价格一样的情况下目前是我测下来最稳定最快的,而且推荐别人注册送了我好多优惠券,就是后台实在太复杂太难用了…),读英文内容的效率已经约等于读中文了。
比如用Deepseek自己翻译Deepseek的R1论文:

12月Deepseek V3刚发布的时候,我的第一反应是

这个事情到底对不对,至今还有争议,哪怕最近微软砍单,蔡崇信唱空,一样很多新闻的解读大家是在“多空自取”。每个人都能看到加强自己想法的部分,很好很和谐。
在V3出来前我是一直用ChatGPT且付费,V3出来之后我是当作ChatGPT的备胎在用,等R1之后也没有再续费了。1月20号发布了R1,直接让它的能力更进一大步,并且比O1额外公开了推理的内容。到除夕前的最后一个周末,在外网的讨论已经铺天盖地,在此之前大家都是纯技术层面去讨论Deepseek的模型效果、用了一些很巧妙的做法,和他的开源开放,但那个周末推特上的讨论的叙事已经变成了“居然是中国人做出来的”,“中国才有真正的Open AI”,“他说自己是ChatGPT所以他是蒸馏/抄袭的”,完全变成了一个中美竞争的更宏大的叙事,彻底引爆了整个科技行业然后是全民讨论。
这时候有人试图往回拉,从中美竞争拉到开源 vs 闭源的竞争,提出这不是中国的胜利而是开源的胜利。十年前假如有个美国为主的开源项目很牛逼,我当时不会觉得美国如何如何,更多会觉得这是对全世界都有贡献。当年我深度参与一些开源项目也没有去想过这算是哪个国家的项目。但如今 deepseek 火了之后,中国人觉得这是中国的胜利,美国人也开始焦虑,认为这是对全世界的贡献的人还有,但已经很少了。甚至我也觉得这时候再提这只是开源胜利的人,是一种挽尊了。
后来的故事就很熟悉了,中概股大涨,“估值回归”,只不过目前看更多的是港股通南下资金在抢夺定价权,外资并没有那么疯。对于国内行业来说,微信开始在搜索框里灰度测试Deepseek的AI搜索,以及搜索框直接推元宝APP跑满血版R1,可能是个转折点,腾讯等了2年,终于要下场收割了。在国内,微信拥有的用户数据可能比手机OS还多,等2年等到国产模型达标,剩下的就是应用了,能做的事情还挺多的,不知道微信会怎么做和做多快。另外,哪怕除了接个DS之外什么都不做,也相当于免费为全国人民提供一个新的方便的(大概率也稳定的)chat box,也是很好的事情了。
于是我个人觉得,这一波真正意义上的Deepseek概念股是两个——腾讯和中芯国际。腾讯在战略上很稳但是战术执行力又很强,护城河是海沟级别,之前几年为了不被锤其实很多钱是放着不赚的(比如视频号的用户量已经非常大了但是广告频率比竞品低很多所以收入没有那么大),今年号称要加大投入,大家算了算发现其实是从往年要回购股票的预算里抠出来的,相当于用股民的钱搞AI。至于中芯国际,道理也很简单,芯片用不用英伟达是个技术问题也是个政治问题,高端芯片没有替代,但H20哪怕有CUDA生态更好用,国家也会想方设法鼓励你用华为和寒武纪,至少先鼓励有研发资源适配国产芯片的大厂先跟芯片厂商一起把生态做起来。
Deepseek本身到底用了什么技术,其实已经不那么重要了。不过R1的论文得出的一些训练模型的结论其实很符合人类的经验:
比如强化学习不要规定解题思路,只看结果做的对不对——教育小孩子规定必须用什么步骤也是不好的,会限制创造力;
牛逼模型蒸馏能让小模型变好,但是小模型自己强化学习效果不行——牛逼的人适合自己琢磨,能超越老师,傻逼的人就别瞎捉摸了,聪明和有知识的人告诉你是啥你就听就完了。
要说Deepseek的成功应该给国人和市场什么信息,我觉得这个信息现在其实也没有完整的被社会接受,因为接受这个对绝大多数人都没好处——那就是做最难的事情就要用最聪明且最努力的人。这几年AI行业充斥着数据、算力比算法更重要的论调,因为这个行业不缺钱,有钱就有算力;这个行业也不缺数据,有用户的企业就有数据量。这个行业缺好的算法,而只有聪明且努力的人才能做出好的算法,但是行业内大多数人哪怕很努力,也不够聪明,不聪明,就做不出好的算法,就做不出好的AI。
最聪明的人在哪?在清华北大,在竞赛金牌,在量化公司……金融和量化一直是网络声音比科技行业小但人才密度更高的(直到小红书上金融娇妻晒工资把行业晒降薪了让大家发现原来这么赚钱…)互联网行业的巨头,人才密度其实是不高的,因为要的人一旦多,门槛必然下降,而因为门槛下降收入又拉不开差距,最顶尖的人就不一定会去。大公司经常会失去创造力做不出颠覆的东西,管理上的问题是一方面,最顶尖的人才不够多也会是个问题。当然这里的人才密度指的是智力密度,做让十几亿人喜欢的产品,不一定需要最高的智力,但他们依然是这个方向的顶尖人才:)
甚至清华北大内部也有一般聪明和更聪明和顶尖聪明的区别,比如本科清北的比研究生才进清北的聪明,比如高考省状元(市县乡什么的不叫状元…)和竞赛国家队保送的比压线考上的聪明…其实顶尖学校内部的鄙视链还是挺严重的,但鄙视链换一种说法就是“大数据”和“实力预测大模型”。让行业内不够聪明的人承认,必须聪明才能做出最牛逼的东西,对自己没什么好处,所以这个行业长期来说还是会继续吹算力和数据的重要性。
但我也并不是说任何一个技术公司都是清华北大越多越有前途,不同赛道不同阶段对人才的需求是不一样的,核心还是看技术是不是依然是瓶颈需要突破。这点来说梁文锋是很厉害的,想的很清楚,专心做新技术的研究,赚钱、赚用户的机会给其他人(主要是腾讯…)
以及中国的企业不光是有更努力工作的员工,也有更努力的老板。甚至更努力的老板很多时候比更努力的员工更重要。美国的公司也有像黄仁勋马斯克这样的努力老板,很多巨头的老板都不那么努力甚至退二线,这些公司都只能吃老本靠平台垄断了。聪明且努力,非常重要。
机器人
直接说我的结论:
人形机器人本身是否是最优解是待定的;
人形机器人的硬件还没有完全OK,软件更是离OK差得远;
人形机器人比自动驾驶还难,现在机器人犯错不会导致死人,但是当他真的替代人的时候,犯错就会导致死人。
人是灵长类进化过来的,在我们没见到外星人之前,暂且算作碳基生物最优解,人类所处的一切环境也都是由人类的构造设计的,比如楼梯。但是这并不意味着灵长类构造是最优解,否则人类不需要发明轮子;也不意味着手就是最优解,否则人类也不需要发明夹子钳子。在人类发明了无数机械类的工具之后,机器人又非要按复刻人形去设计,这其实是一种倒退,完全是为了忽悠普通人而迎合市场的融资行为。退一万步讲,为什么人形机器人不能有四只手呢?……
要我说,机器人的最佳形态是“Transformer”,是“变形金刚”,任何单一形态都不足以适应所有场景。
现在的机器狗、人形机器人,机械能力的进步确实也是很快的,但是依然还是在田径和武术层面,对标的是人类最基础的本能,而非智能——哪怕实现很高级的跳跃操作也是需要人工智能的技术,但他能实现的工作也依然不能带任何智能。归根结底,实现一个帮人一些稍微复杂工作的机器人,除非是限定在一个非常简单的场景(比如拿一个吸尘器来回走,最后效果和成本都还不如扫地机器人…),否则是个非常难的事情,甚至在很多维度上比自动驾驶做到Robotaxi还难——因为Robotaxi只是限定ODD的L4。而且Robotaxi可以有远程协助,长尾非紧急场景可以让人协助,给远程指导,1个人管几十台车,成本能算过来。但Robotaxi是在公共空间,哪怕车内也可以算是公共空间,起码你不会脱光衣服。但是机器人不行,机器人的(起码现在在吹的)场景是家里,有隐私问题,不能有远程协助,如果依赖用户协助,价值少两个0。
如果用无人车来对标机器人,有商业价值的机器人也就大概分三种:
L1,远程遥控型,相当于遥控车、遥控飞机(无人机),没有节省人力的价值,操作也有门槛,但是在特定场景有价值(危险的矿山、救灾、战争等);
L2,辅助型,相当于L2辅助驾驶,需要一直盯着,给明确指令后帮你干点事情,你可以随时喊停让他在搞砸一件事情之前挽回局面;
L3,全自动型,给简单指令,全帮你做好,不需要监督。
你想的肯定是L3,但是L3显然还远着呢,现在的状态是L1+2,既要遥控,还得盯着。前几天高盛调研完说机器人还得个三五年,很多人已经觉得是在砸盘了,而这个在当年的自动驾驶行业,原话叫“三年商用五年量产”,这话大概是快10年前说的了。
大模型
我翻了下两年多之前ChatGPT刚发布的时候我跟朋友讨论的聊天记录,当时我对他的定义和认知还是“更好的聊天机器人”,随着后来模型越来越大、越来越好,在某个时间开始,逐渐我已经认为大语言模型是有推理和思考的能力的了。虽然他理论上是个文本预测概率的模型,但不重要,他“预测”出的文本内容是在思考和推理,而人在思考很多问题(尤其是强逻辑性的比如数学题编程题)时是在用自己的母语进行思考的,甚至我当年的同学有人喜欢做题的时候自言自语自己的思考过程,就是把自己的语言模型推理结果泄露了…
但通过语言思考并不是万能的,人类在很多问题上不是靠脑子里过一遍自己的母语去思考的,有一部分是直觉、肌肉记忆,还有一部分是偏空间理解的。比如有些人经常会分不清左右,但是人类几乎很少分不清上下。这是空间理解上的难度的问题,我怀疑跟上下有重力引导有关,不知道有没有科学研究。而在语言中,上下左右是四个字、几个token而已,没有任何区别。至今大语言模型的空间理解能力还是会差一些,包括最新的GPT 4o能画出很牛逼的吉卜力漫画,但是有人测试发现模型还是画不好“捉迷藏”的遮挡概念,会把俩人放在互相能看到的位置上。空间理解力,有人觉得需要多模态的世界模型,也有人觉得是单纯因为模型不够大。如果强制要求你对空间的理解很强,对周围物体的运动估计和与其交互的能力很强,且要求必须实时性很好(比如100ms以内能反应对),而且算力和功耗还不能太高,这是不是非常难?而这就是自动驾驶的要求……所以我一直觉得做自动驾驶和做大语言模型是两个都很难的事情。而大语言模型稍微不那么“痛苦”的点是他错了也无所谓,自动驾驶哪怕只是L2,也尽量不要错,而L4就是完全不能错了。
现在大模型行业有两个“左脚踩右脚”。一个是基座模型和推理模型的左脚踩右脚,一个是基于当前模型水平做产品化和下一代模型碾压一切promt+workflow/agent的左脚踩右脚。前者对所有人都是好事,后者就不一定了……
AGI
到底啥是AGI?你需要的是AGI还是一个可以做XXX的AI?你怕的是AGI还是怕AI取代你?
比如今天,对于很多美工、画师来说,天就塌了。有些人的想法是,只有能创造新风格的人还能暂时在艺术领域活下去。但这个问题相当于只有几千个注册球员的国家能不能找到 11 人踢进世界杯,一旦行业结构不是金字塔,塔基被 AI 取代,其实不一定还有塔尖了。
过去,中低端白领赚的其实是教育权力的套利(中国有很多穷人无法得到最好的教育从而高考考上好大学,而西方国家可能是单纯上不起大学),靠比底层人多会一点东西、多有一些文凭,多能考一些分数,而有更体面的工作,但不一定更高薪。未来可能这个薪酬的差异会更明显,尤其是中低端白领的收入会先降到0,也就是没有工作。白领理论上是在卖自己的脑力,但其实大多数白领卖的也是脑子的体力,智力是不足的,于是也是最先被 AI 取代的。反而蓝领因为不需要比 ai 强只需要比 ai+机器便宜,且“具身智能”比纯“脑力智能”更难做,所以短期内都不会有大范围的失业,更何况失业的蓝领会有……的风险,在各国都一样。
中国的家长要鸡娃,一大原因就是怕考不上好高中甚至考不上高中,只能去做蓝领。然而AI越来越强之后,除非有哪个牛逼的企业家能基于AI又创造出一大堆岗位需求且这个需求需要大量白领且这个需求AI搞不定,否则白领岗位只会越来越少。要么是学美国直接举债扩张政府雇员人数然后靠下届政府还钱,要么……
所以如果有孩子或者未来会有孩子,建议先想想二三十年后的年轻人到底出路是什么,或者先想想二三十年后自己还能做什么。当然,这年头大家都不容易,可能根本没空想这么多,想这么远。就像我最近发现,现在有钱人和穷人都认为战争不可避免,都在做准备,穷人甚至很多人会在网上明确表达不是坏事,可以立战功来翻身。而中产,没空想这个问题,想了也没用。
在人民群众喜迎AGI之前,有思考能力的人还是需要思考下,人的价值到底是什么。AGI能取代你不想做的事情,就能取代你能做的事情,和你为了赚钱不得不做的事情。