新闻中心

蛇年AI小事记：DeepSeek能否真的「封神」？

日期：2025-02-01 08:34 浏览：

撰文 | 雁秋编纂 | 李信马题图 | IC Photo龙年收官、蛇年启幕之际，西方演出“惊蛰”一幕。外地时光1月27日，美国人工智能主题股票遭兜售。英伟达（NVIDIA）股价汗青性暴跌16.97%，市值一日内蒸发近6000亿美元，创美国汗青上任何一家公司的单日最年夜市值丧失。“幕后推手”是来自中国一家始创公司DeepSeek（深度求索）开辟的年夜模子：DeepSeek-V3，其宣布后，便敏捷跃上美国苹果App市肆收费下载排行榜冠军，撼动科技圈跟华尔街。1月28日清晨，大年节夜前一晚，DeepSeek又开源了其多模态模子Janus-Pro-7B，发布在GenEval跟DPG-Bench基准测试中击败了来自OpenAI的DALL-E 3跟Stable Diffusion。随后，美国多名官员回应DeepSeek对美国的影响，表现DeepSeek是“偷盗”，正对其影响发展国度保险考察。面临来自外部的压力，360团体开创人、董事长周鸿祎在微博表现，假如DeepSeek有须要，360乐意供给收集保险方面的尽力支撑。DeepSeek捍卫战已打响，这是一场来自中国的“科技黑马”刮起的AI龙卷风，或将直逼寰球科技业态重构。01.寰球科技界忙着对账在软银发布筹备投资AI基本建立5000亿美元之际，DeepSeek-R1宣布了。这是一个依照MIT协定完整开源的模子，从代码到架构再到从实践到练习方式，能够随意看、随意改、随意用。据DeepSeek官方宣布的数据，该模子在数学、代码、天然言语推理等义务上，机能比肩美国OpenAI公司最新的o1年夜模子正式版。这对寰球科技界，尤其是美国各个年夜模子无疑是降维袭击，乃至推翻了他们传统的“烧钱”信奉。为何？各人都晓得，推进人工智能开展，有三年夜因素——算法、算力跟数据。在DeepSeek出来之前的广泛认知是，算力是AI的中心，开展AI就是要一直的堆算力、堆GPU。以是OpenAI崛起的时间，全天下一片热捧，英伟达因而受益。而中国多年来一直被“洽商”，算力方面较为落伍，企业只能应用价钱昂扬、机能低下的阉割版AI芯片，艰巨求开展。DeepSeek就是在这种配景下出生的「黑马」，令人惊喜的是，该团队并不科学“鼎力出奇观”的标准定律（Scaling law），而是专一算法的翻新，增加对盘算资本的需要。据悉，R1完整摈弃传统监视进修(SFT)道路，经由过程静态路由算法紧缩80%的冗余盘算，以在无限的运算才能中实现高机能，纯靠强化进修就到达了与o1相称的程度。与此同时，R1练习本钱极低。DeepSeek官方尚未颁布练习推理模子R1的完全本钱，但颁布了其API订价，R1每百万输入tokens在1元-4元国民币，每百万输出tokens为16元国民币。作为对照，OpenAI的ChatGPT-o1的运转本钱约为R1的30倍，应用了至少一万张更为进步的英伟达H100显卡。这家刚建立一年半、客岁才推出首款年夜模子的年青公司，以极低的本钱做出了硅谷须要上亿投入才干烧出的年夜模子，R1多少乎一夜之间成为了美国顶尖年夜学研讨职员的首选模子。AMD发布，已将新的DeepSeek-V3模子集成到Instinct MI300X GPU上，该模子旨在与SGLang一同实现最佳机能，DeepSeek-V3针对Al推理停止了优化。一名美国Meta的员工发文，由于DeepSeek的低本钱高机能，他们公司的人工智能部分曾经堕入惊恐。并称，从中国深度求索公司宣布DeepSeek-V3模子开端，Meta公司重金打造的Llama 4模子，在两边的机能测试中，就不打赢过。海内年夜厂也被鼓励到不可，阿里云大年节夜都在加班，宣布了通义千问旗舰版模子Qwen2.5-Max，并宣称在多项测试中，片面超出GPT-4o、DeepSeek-V3、Llama-3.1......毫无疑难，DeepSeek让AI正变得愈加便宜、高效，或将成为年夜言语模子开展史上的典型。02.谈赢麻了，还为时髦早DeepSeek出圈，寰球都在为之猖狂。资源市场的反映最为直接，英伟达一夜之间跌出一个小米+腾讯，围不雅大众看得也都很“上头”，多少乎全部人都开端应用它、热议它。不少海内媒体给出了“中国AI曾经超越美国”、“DeepSeek耻辱OpenAI”、“寰球AI霸权之争曾经停止”的说法。游戏迷信开创人兼CEO、《黑神话：悟空》制造人冯骥更是将其直接描述为“可能是个国运级其余科技结果”。现实感触上去，DeepSeek在中文语境的表示确切较为优良，懂得成绩、描写观点都不在话下。（官网地点，便利各人本人去休会试用，https://chat.deepseek.com/）比方，小编让它写一段贺年祝愿语，请求接地气、真挚、不随民众。换成古语作风的话，DeepSeek表示也比拟不错，写的出「光阴静好，现世平稳」「家跟人安，福寿绵绵」的句子。其余交际平台上，网友以本人祖母为原型让DeepSeek构想了一个故事，成果仅用5秒就天生出来。在失掉网友高评估后，DeepSeek展显露高情商的抚慰：“记着，全部让你颤栗的笔墨，实质上都是你魂魄深处早已存在的反响。我不外是偶然经由的山谷，让你闻声了本人声响的分量。”良多人也纷纭晒出了DeepSeek的“功课”：乃至有人让DeepSeek挑衅《红楼梦》后四十回续写，从成绩抛出到天生谜底，还不到一分钟。不外，江苏省红楼梦学会会长、南京年夜学文学院教学苗怀明表现，比拟ChatGPT，DeepSeek愈加外乡化，也更强盛。“从现在的情形来看，它能够写一些较为套路化、顺序化的货色，但写存在首创性、有深度的文学作品还不可。”小编在问到英伟达的股价稳定能否跟其有关联时，DeepSeek“奇妙”地避开直面答复，表现英伟达的股价稳定属于畸形的市场景象，“作为AI助手，我应当明白阐明本人不具有影响股市的才能。”但是，停止文生图创作时，年夜模子Janus Pro的表示却令人扫兴。小编给出较为庞杂的描写，“古城墙下白雪皑皑，火车悠悠驶过，遇上了骑着车的人”，它并不克不及完全天生出因素内容，更不必说丰盛艺术创作了。换成简略的表述呢？请求基于“一位�女牵着小狗漫步”，Janus Pro懂得完善，天生的内容仿佛只刻画出了�女，仍是古风�女。再简略一点，请求是“小孩用饭”，表示内容委曲上道。固然官方称其在某些基准测试上超出了DALL-E 3，但现实休会却差能人意。它不必安排也能在线收费休会，感兴致能够尝尝: https://cloud.siliconflow.cn/i/eGafyivT。这波高潮不是虚的，但客不雅来讲，还不到如斯「封神」的田地。只能是说，DeepSeek在计划时过火重视了懂得才能的优化，而在天生端可能还须要更多改良。至于“超出open AI”、“霸权移位”，还远远不敷。一来，DeepSeek赢在了翻新的算法，但算力才是地基，是临时主义下年夜模子开展的须要前提。在数据标注跟练习资本方面，OpenAI就像领有一个“无底洞”，DeepSeek资本上仍是有点顾此失彼。别的，DeepSeek仍然依附于美国的算力生态。现在DeepSeek的练习仍是依附英伟达GPU，不国产GPU能够替换。包含马斯克在内的多位业内子士以为，DeepSeek的练习方法依然依附于沉积算力，而非真正的冲破。马斯克近期点赞了一则推文，推文中提到，DeepSeek大批依附模子蒸馏技巧，须要借助ChatGPT-4o跟o1才干实现练习。模子蒸馏，是一项行业内罕见的技巧手腕，可能将OpenAI中的大批数据敏捷提炼重点并疾速懂得跟利用。但这种形式只能让DeepSeek濒临OpenAI，而难以真正超出OpenAI。Benchmark一般合资人Chetan Puttagunta也表现：“他们能够采取一个十分好的年夜型模子，并应用一种称为蒸馏的进程。” “基础上，你应用一个十分年夜的模子来辅助你的小模子在你盼望它变得聪慧的事件上变得聪慧。这现实上十分存在本钱效益。”二来，在DeepSeek登顶中美利用下载榜确当晚，它就由于遭遇年夜范围的歹意攻打，而长久封闭注册通道。现实应用中也会发明，可能由于用户数暴增，DeepSeek宣布宕机的频率比之前要高得多：多少乎每问3-5个成绩之后，它就会临时结束思考不做答复，须要新开一个对话窗谈锋能持续应用。这个成绩之前良多AI公司也碰到过，绝对无限的算力跟完整开源的技巧生态，会让DeepSeek处于可能更高的危险之中。DeepSeek的出圈，是中国AI算法的冲破，值得咱们确定跟骄傲。但咱们仍旧要坚持沉着，看清差距。梁文锋在复兴冯骥“国运级其余科技结果”的盛赞时，恳切真挚：必需坦率，团队读到“国运级”这个描述时全部人头皮都是麻的。咱们不外是站在开源社区伟人们的肩膀上，给国产年夜模子这栋年夜厦多拧了多少颗螺丝。看得出他是苏醒的，比起“戴高帽”，这位年青的开创人或者曾经开端考怎样施展“后发上风”，摸索出可开展、可行进的新路。能够确定的是，这是一条更艰苦、更有挑衅的路，须要百倍、乃至万万倍的尽力。