首页 >> 论坛 >> 转贴
字体∶
王维嘉关于Deepseek的看法

科长 (发表日期:2025-02-01 14:34:51 阅读人次:1804 回复数:6)

  王维嘉关于Deepseek的看法

  
大家很关心这个Deepseek这件事儿我简单说几句吧,因为网上现在各种各样的分析很多了,技术分析、财务的分析,我给大家打个比方吧,就是我在硅谷呆了40年啊,就是说我很深的一个体会,就是技术创新,这件事儿呢,就是探路,相当于什么呢?我们在这个大山里头啊,发现了金矿,有人说这个这座大山里头是有金矿的,但具体金矿在哪儿,是不知道的。所以一帮人哗沙进去,然后呢,这不同的人就找不同的方向,所以这个从2012年这个人工智能啊,图像识别发生了第一次突破之后啊,后来这个下围棋。

  
后来下围棋,这个大概是我们叫人工智能1.0吧,这个硅谷的或者是整个人工智能行业的方向,主要是图像识别和视频的识别,那么这个大家认为是非常大的方向,所以2017年呢,这个谷歌做出了transformer就是做语言的模型啊,当时他们是做这个语言的翻译,英文和法文之间的翻译。那么谷歌的人呢,把这篇文章做完了以后呢,基本上就没有往深处走,因为大家觉得语言吗?翻译这个市场就太小了,和图像识别和视频的识别没法儿比吗?

  
但这时候呢,这个Open AI,这这几个小子呢,就觉得语言里面是有广阔天地的,人类的智慧啊,都是被语言概括的,所以他们就拼命往这里钻,所以当时 OpenAI既没有钱,也没几个人,和谷歌比,和微软比,都没法儿比,都是差十倍,差100倍的资源,但是他就给拱出来了。所以说2022年的11月,C哈他GPT发布就等于说呢,别人都在所谓的阳光道上走,他们旁边儿发现一条小岔道,觉得哎,咱到这里看看有没有金矿,就一头扎进去,结果,哎,让他们发现金矿了。

  
那ChatGPT发现以后呢,那所有的人都涌过来了,说,哇,原来金子在这儿呢,哇,都往这儿冲,把这儿就冲成一片阳光大道了。那么大家就是这个预训练,在这条路上拼命加大模型,这加大数据,这个一直往前冲,冲着冲着,有点儿找不着路了,然后呢,这个OpenAI啊,又做了第二个贡献,就是推理的学习,那突然发现在模型不是很大的情况下,只用推理,只要你好好训练推理,这个一步一步的去推理,用这个训练的话,模型的能能力呢,能够十倍,百倍千倍的增加。相当于open AI呢,又发现一条新的路,所以这是去年9月24号,他的o1 model发布的时候,发布的时候就等于给大家指出一条新的路,就是在推理方面使劲儿。

  
那大家知道,既然你是寻宝,是探险,往前走都是荆棘丛生啊,没有路的啊,这这一条岔路,那一条岔路,对吧,不同的团队都在不同岔路上找,然后在这个过程当中呢,全世界的团队主要是美国了,哎,发明了很多方法,就是包括相当于更快的砍刀,更锋利的铲子,就是发明了很多工具,然后这大家都用这些工具呢,就可以更快的往前探索。

  
好了,故事讲到这儿呢,我们就可以说这个deepseek呢,首先它是一个在中国非常稀有的这么一个有技术理想的团队啊,为什么呢?因为他坚持做开源,当然做开源,从实际上讲,一般是落后者呢,他做开源,因为这走在最前面儿的,一般都要把自己好东西捂住,不愿意给别人分享,那我反正落后了,那我开源的话,利用全世界的智慧来一起推进。所以说Meta就是Facebook也是开源的道路,因为他们也落后了,和open AI相比。但即使如此,在中国产生这么一个团队也是非常罕见的,非常了不起的。因为开源不是中国的文化或者中国的精神,它是一个公益社区的这么一种精神,我们阿拉善的企业家就会比较更能理解啊,就是要你要付出很多的,但你能不能赚到是不知道,但是你一定会付出,开源就是这么一个社区,那美国的开源,比如Wikipedia的呀什么, 中国当时也来拷贝做百度百科,结果做的烂的一塌糊涂,就没法儿用,那Wikipedia的就成了全世界人的字典,那么这个软件的开源从Linux啊,所以说这个已经在西方是一个传统,那中国这个团队呢,如果能够坚持做开源,坚持把最好的东西。坚持把最好的东西给全世界分享,我觉得这个真的是非常佩服,那我觉得这是过去几十年吧,这种美国的开源社区,这种精神影响了一大批年轻的程序员,一大批年轻的企业家,但是在中国整体来讲还是非常稀缺的这样一个,也就是他们是一帮有技术理想的人。

  
第二呢,这个梁文峰从2013年就开始做量化投资,然后当时他就是用机器学习,就是用AI做量化投资,所以这个团队呢,对机器学习并不陌生,已经做了十几年了,摸了十几年了,所以我相信这个chatgpt出来,或者TRANSFORMER出来,他们就,他们甚至可能在chatgpt出来之前就开始用transformer做大语言模型啊,2019年可能就开始了,所以他们技术是非常有敏感度的,然后呢,也招到一批中国最聪明的小孩儿。那这样的话呢,他们手里有了这个前面人开发出来,这个非常锋利的铲子,砍刀,然后一大堆好用的武器,然后呢,他们就在跟着这个推理模型,这条新路的后面又发现了一条岔道,这个岔道是什么呢?就是不用人工训练了,完全自动的训练,因为原来openAi做的还需要人工的训练,人工训练就贵啊,自动训练就就便宜吗。 所以这条路呢,别人看到没有呢,都看到了,但就是他们去使劲探这条路。 大家都路过了这个岔道,但是你见了很多岔路,不同的团队就觉得哎,这条路也许没什么油水,我就往前走了,对吧。那这个梁文峰这个团队说,哎咱们在这条岔路里头进去试试就是啊,当然他的技术有很多,大概有六项不同的东西啊,但是我认为最重要的一点就是自动训练,自动的推理训练。

  
自动推理训练有点儿像什么呢?有点儿像AlphaGo zero,大家知道AlphaGo打败了李世石,然后谷歌的工程师当时让AlphaGo学了历史上5万盘的残局,那么当时的谷歌工程师就在想,哎,如果这个我们不让他学人类的经验,完完全全从头摸起会怎么样?结果在这个AlphaGozero,这个互相对弈了十来天之后,还是就已经打败了原来打败了李世石那个老的AlphaGo。那实际上呢,这个路呢,就是AlphaGozero的路,大家呢,都没有去全力的去这个往深里走,那么他们是一直走到底了。当然他为什么要做呢?那其中一个原因就是网上分析的,就是因为他们的算力少嘛,芯片少,所以他要拼命的去用最省力的方法,最便宜的方法,所以我觉得他们在这条路上走通了,那这次贡献呢,我觉得还是非常大的,我觉得没有chatgpt那么大了,也没有发现推理训练那么大了,但是,也许这个可能是从 ChatGPT以来第三大的贡献,我觉得。他这贡献就是把推理的成本降低到了原来差不多百分之几,降低了两个数量级。

  
那回过头来说,很多人的关心,说这个是不是改变了中美的AI的格局呢?我认为那还不至于,这肯定是缩小了中美在技术上的差距啊,也说明中国呢,在一个困难的条件下,只要有理想,只要你比较纯粹啊,还是能做出东西来的。如果一开始就想着赚钱,你看这个中国所有的大的公司都投了不知道多少钱进来,张一鸣可能投了至少几十亿美金,对吧?然后李开复啊,还有什么王晓川,那些光这种做大模型的公司,就几十个,百模大战什么之类的,都都没怎么做出来,就是不够纯粹。

  
那当然这里头有一定的偶然因素,就是说这条路呢,别人看到没有?都看到了,但是就没有赌这条路,那他们堵了这条路,所以这里头有一定的偶然的成分吧,就说这两个都重要,就是这个团队的这么多年的积累,他的技术理想和他赌这条路赌对了。 就和openAi为什么能发现大语言模型,而微软谷歌Meta没发现是一个道理,你说他们那么多资源,那么多聪明,就是对这条小岔道没有进去深度探索。

  
所以中美的这个AI的整体的格局呢,并没有被撼动啊,因为这个AI的技术呢,包括几个方面了,一个就是芯片了,那中国的芯片还是差的很远,这个我就不用多说了哈。第二个算法呢,那整体比如说过去,过去十年吧,整个算法的突破,从2012年的alexnet,一直到这个 2017年的transformer。到2022年的chatGPT,然后到思维链,到RAG, 到推理训练,所以这些大的突破呢,基本上都在美国发生的,其中法国有一家公司,Mistral也做了一些贡献,但是它很小了,那就把这些贡献加起来,那个这个的Deepseek这贡献在 在所有这些技术贡献的占比能占多大呢,我觉得大概5%左右吧,这个这个已经非常非常了不起了。

  
那好了我再说一下,就是说这个对于商业或者对于股市意味着什么,因为我可能我们有些朋友在投资美股,因为我在我的《暗知识》那本儿书里头,我是2017年写的,就明确的告诉大家,AI时代的芯片霸主就是英伟达,当时英伟达的市值是大概三百亿美元左右吧,从那时候到现在涨了100倍差不多。这个这次美国股市为什么大跌啊,原因特别简单,就大家觉得,哇,那我现在这个算法效率提高了100倍对吧?那我不需要那么多算力了嗯,那英伟达或者这些芯片都不不需要那么多了,其实这是一个非常静态的思考的方法。

  
这个事儿呢,可以用19世纪英国一位经济学家发现的效应解释。 在英国当年蒸汽机效率大幅改进后,很多人觉得,哦,那蒸汽机效率大幅改进,整体煤炭消耗量就会变少?结果发现煤炭的消耗量大幅增加。道理其实也很简单,你想啊,假如英国原来有100台蒸汽机,都是矿井里头抽水啊,这些东西,假如每台每天耗煤一吨的话,突然有个工程师把这个燃烧效率改进了十倍,就是一天只耗100公斤,那么原来呢,一天耗100吨,这100个蒸汽机呢,现在一天只耗十吨,对吗?那看起来少了,但是大家突然发现,哇,这个蒸汽机现在这么便宜,我可以用来运输了,我可以开火车了,我可以开马车了,我可以开磨坊。可以做一大堆东西,结果是原来英国从100台蒸汽机变成了1万台蒸汽机,那1万台蒸汽机呢?这个他还是每台蒸汽机100公斤的话,它的总耗煤呢,就从原来的100盹变1000吨了。这在经济学上叫Jevons paradox,Jevons就是发现这个效应的经济学家,反正道理就是你要动态的看。

  
那回过头来,我们说这个Deep seek对整个AI的影响呢,那绝对是个利好,也就是说过去其实啊,大家觉得AI应用一个很大障碍就是太贵,你比如chatgpt,你问一个问题,他要花钱算答案,那后来呢,这个openAi就出来这种200块钱一个月的,后来他说200块他还要亏钱,为什么呢?一旦推理了以后哈,计算的时间大概是原来的100倍,就是因为原来你问个很简单的问题啊,唐朝的第一任皇帝是谁,他刹那就给你回答出来了,然后你要跟他一个很复杂的问题,你说唐唐宋之变的这个核心原因是什么?,这就是更复杂的问题,需要分析,佐证等,他要想很长时间。

  
那这个如果每个人都天天问这么复杂的问题算力消耗就会大大增加。而且现在已经不是问问题了,现在AI已经发展到agent就帮你干活儿了,比如说你说你要去旅游,巴西你从来没去过,然后你有一个像一个助理一样,从帮你研究到帮你安排,到帮你订旅馆,订机票,全帮你做了,那他的这个耗费的计算,可能是你问一个简单问题的1万倍。但如果这个这个事儿呢,你说这个要花10000块人民币帮你安排一个旅行,你可能觉得太贵了,对吧?如果是100块,那你想都不用想,是不是?所以这时候呢,就是便宜的AI的模型,会使得AI的应用大大的扩展,就是可能是成百倍上千倍、上万倍的扩展。

  
那所以他第一个利好就是让AI的应用啊,快速的落地,第二呢对未来对芯片的需求,就和蒸汽机对煤的需求一样,是会扩大的。第三个问题就是大家关心啊,这个他们到底用了多少芯片呐,或者是有没有偷这个openA I的数据,我觉得这个都不重要,原因是什么呢?因为啊,不管他用了多少芯片啊,这个我们没法儿知道啊,但是他现在的这个售价,它的每次访问的成本是openA I的1/30,他敢这么定价,而且还是有利润,就说明它便宜吗。那不管人家怎么做到的,反正人家便宜,那这个就够了,所以你从它定价就可以看得出来。够了,至于他有没有用美国的模型去蒸馏美国的数据啊,什么之类的,我觉得啊,我个人猜测,这都是完全可能的,因为创业公司嘛,先做出来再说,当然我没有任何证据啊,讨论这些问题,我觉一点儿都不重要啊,所以说我觉得不要去纠缠这些问题,那最后的结论呢,就是说,在一个偶然性非常大的科学探索的这个路上,那么有这么一个团队,发现了一个新的东西,这个是完全可以理解的,只要比如说100个小分队都在不同的岔路上。那总有一个小分队可能运气好啊,这个大饼砸在头上了,对吧,这个是完全可能的,那中国出这样一个团队呢,也不奇怪,因为中国的AI的基础, 工程师的基础,经过这30年吧,和西方的交流已经有一个非常好的基础了,有人说这是就是苏联的卫星时刻哈,那这也对,苏联之所以1957年能第全世界第一个放卫星,因为是美国在整个一战、二战时期,完全对苏联技术放开,那么在苏联就是就培养出这样一个技术的基础能力,但一旦闭关锁国以后,这个这个技术能力会迅速的下降。

  
所以现在呢,就是这个团队今后继续还能不能出这么大的结果,我觉得这里头一个是有一定偶然性,另外呢,我觉得人怕出名,猪怕壮,对吧,现在这个从上到下啊,这都来找他们,政府各种要求,然后大公司都来高价挖他们的人,我觉得这对他肯定是不利的,还能不能那么纯粹的坚持,坚守技术理想,继续往前走,这个是一个打个问号儿吧,我觉得对他们肯定不是好事儿。

  
那最后一个问题就是AI这次浪潮到底有多大啊,其实呢,你就是问两个问题,就是我们回到最最根本的两个问题,第一呢,这次浪潮是刚开始还是已经见顶了,那我个人认为呢,还是刚刚开始有点儿像互联网啊,90年代末2000年初对吧,应该还有十年到20年的发展。

  
第二个更重要的问题,就是AI到底能做什么?那现在呢,根据这几个大的lab,就是openai, anthropic google微软都在说AGI会出来. 什么是AGI呢,现在的定义是说人类能做的,绝大部分的智力活动机器都能做,那这个时间点呢?大概是最长的说五年,短的就是两年。

  
那如果如果是这样的话,那这个市场就大得不得了,会远远超过互联网的市场,应该是一个十万亿,几十万亿美美金的这样一个市场。所以现在整个从AI来讲呢,那这个这次的Deepseek呢,等于是进一步证实了人类是有可能以比较低的成本来实现AGI的。如果AI太贵,比人都贵,那就没用了对吧,那我就雇个人就完了。就像中国很多生产线,他不买机器人儿,他就用工人,因为工人比机器人儿便宜,那所以你机器人儿要普及呢,一定要远远比工人便宜,那现在呢,我觉得deep seek就能够大大的降低AGI的成本,在这条路上做出了重大贡献,所以说我觉得这个团队还是非常了不起的。

  




 回复[1]:  科长 (2025-02-01 14:36:33)  
 
  王维嘉,1958年出生。1977年考入中国科技大学无线电系,1984年获硕士学位;1985年赴美斯坦福大学电气工程系攻读博士,1987年毕业获博士学位。硅谷的企业家和投资家。

 回复[2]:  科长 (2025-02-01 14:41:36)  
 
  老唤过来看看这个,比较客观全面

  
只是对于大数据的来历,避而不谈...

 回复[3]: 仔細拜讀了 老唤 (2025-02-01 15:57:10)  
 
  他很宏觀,而我關心的是細節,微觀。如果連一件事情都說不清楚,我們還能希望它什麼呢?推理很重要,但是推理和算命還是不一樣,要有根據。在這個意義上,我說seek肯定成為垃圾,比perplixity都差遠了。

 回复[4]:  科长 (2025-02-01 16:38:43)  
 
  现在是不是可以得出这样的结论

  
deepseek 运用某种新技术手段,非常经济地获取了大数据,然后加工成他家主子可以接受的形式

 回复[5]:  科长 (2025-02-01 16:40:13)  
 
  有一种说法

  
deepseek就是AI界的拼多多

  

 回复[6]: 大概是這樣: 老唤 (2025-02-01 20:51:01)  
 
  由於資本和人力的缺乏,seek首先通過各種渠道獲取了一定量的二手數據(一手不大可能,或許有很少一部分)。又受到Go Zero的啟發搞出了一些推理的基本框架(其實國外也有)進行自我學習。但是忽略了一點:Go Zero是通過計算在相對有限範圍內才取得了成功的。面對變化層出不窮的無限的時空世界,有限的資源根本不夠用。在沒有什麼科學的手段來解決問題的情況下,餘下的大部分只好靠忽悠。忽悠是中國人的思維方式的一種,不會感到有什麼不適。

  
沒什麼“新技術手段”,如果有,那就是自動屏蔽負能量。

 敬请留言(尚未注册的用户请先回首页注册)
用户名(必须)
密 码(必须)
标 题(任意)
内 容(1000字以内,图片引用格式:[img]图片连接地址[/img])
    添加图片
    
 
Copyright ◎ 2006-2010 东洋镜工作室 All Rights Reserved