21察看￨“西方奥秘力气”再爆火 AI比赛突起中国

您现在的位置是：主页 > 慢生活 >

21察看￨“西方奥秘力气”再爆火 AI比赛突起中国

发布时间：2024-12-31 08:32编辑：[db:作者]浏览（86）

21世纪经济报道记者孔海丽北京报道DeepSeek再次爆火。克日，海内AI始创公司DeepSeek宣布了新一代年夜言语模子DeepSeek-V3，同时发布开源。在多项基准测试中，V3的成就超出了主流开源模子，并跟天下顶尖的闭源模子不分手足。更主要的是，V3的练习本钱极低，仅为GPT-4o的二非常之一；售价也低，输入+输出价钱约为GPT-4o的非常之一。不外其现在不支撑多模态输入输出。DeepSeek是著名量化资管公司幻方旗下的人工智能公司，建立于2023年7月。被冠以“AI界高效廉价典型”的DeepSeek，给以后的人工智能技巧与开展门路供给了一个新的偏向，奉献了AI比赛中的中国力气。DeepSeek的“暴力美学”多个实测标明，数学基准（MATH 500）跟AIME 2024测试方面，V3超出了以后国际主流年夜模子Llama 3.1 405B、 Claude 3.5 Sonnet 跟 GPT-4o；代码才能（Codeforces 基准），比外洋主流年夜模子超过约 30 分；软件工程（SWE-bench Verified）跟常识问答方面，略逊于Claude 3.5 Sonnet。因而，DeepSeek 的技巧论文骄傲地声称，“综合评价标明，DeepSeek-V3-Base 曾经成为现在可用的最强盛的开源基本模子，特殊是在代码跟数学方面。它的谈天版本在其余开源模子上的表示也优于其余开源模子，并在一系列尺度跟开放式基准测试中实现了与 GPT-4o 跟 Claude-3.5-Sonnet 等当先闭源模子的机能相称。”更主要的是，这一成绩，是在极低的练习本钱下获得的。DeepSeek的技巧论文表露：“咱们的预练习阶段在不到两个月的时光内实现，本钱为 2664K GPU 小时。联合 119K GPU 小时的高低文长度扩大跟 5K GPU 小时的后练习，DeepSeek-V3 的完全练习本钱仅为 2.788M GPU 小时。假设 H800 GPU 的房钱为每 GPU 小时 2 美元，咱们的总练习本钱仅为 557万美元。”Anthropic首席履行官达里奥·阿莫迪此前流露，GPT-4o的模子练习本钱约为1亿美元。而仅仅是练习一个7B的Llama 2，就要破费76万美元。也就是说， DeepSeek-V3的练习本钱仅为同机能模子的十多少分之一。这让全部AI界都为之震动。据报道，仍处于研发进程中的GPT-5 ，至少已停止过两轮练习，每轮练习耗时数月，仅一轮盘算本钱就濒临 5 亿美元。一年半从前，GPT-5仍未问世。这象征着，新一代通用年夜模子的练习本钱已到达十多亿美元乃至更高。马斯克旗下的xAI刚实现60亿美元融资，主要开销之一是将数据核心Colossus的范围扩展一倍，GPU数目到达20万颗。依照这种练习门路，将来三年内，AI年夜模子的练习本钱将回升至100亿美元乃至上不封顶。恰是在这种配景之下，一段时光以来AI界发生了对Scaling law的质疑。GPT-5难产，OpenAI转向了另一条开展门路：推理模子。而且很快发生结果：令人冷艳的o1推理模子，以及刚宣布的O3推理模子。而O3的出色表示，让局部专家惊呼，在前去AGI的路上曾经不了阻碍。人工智能始创公司遭到宏大的启示，并牢牢追随。前未几刚从硅谷考核返来的零一万物开创人李开复说，从前各人感到预练习做好就够了，一年当前（O1呈现后）发明Post train（后练习）也同样主要。他以为，良多AI公司都在向推理模子方面开展，5个月当前会有不少相似o1 模子的才能呈现在各个模子公司，包含零一万物，都在往o1 偏向疾走。但DeepSeek-V3的呈现，供给了新的可能。更短的时光，更高的效力，更低的本钱，到达等同的程度，通用年夜言语模子的开展门路上，奉献了“中国版本”。新的变更曾经产生现实上，往年5月6日，DeepSeek宣布DeepSeek-V2开源MoE模子，就以其高效机能在寰球AI界掀起了一波热度。而其API接口订价断崖式降为每百万tokens输入1元、输出2元（32K高低文），价钱仅为GPT-4-Turbo的近百分之一。随后，智谱AI、字节跳动、阿里云、百度、腾讯云旗下年夜模子不得不跟进贬价。并且腾讯跟百度发布多少款年夜模子产物收费。固然有人将DeepSeek-V2称为“AI界的拼多多”，但这个比方不太适当，由于二者多少乎不个性。DeepSeek -V3 的 API订价进步到输入2元/M tokens，输出为8元/M tokens（45天的价钱优惠期后），固然比V2年夜幅上涨，但也只相称于 Claude 3.5 Sonnet 用度的 1/53，后者每百万tokens输入3美元、输出15美元。依据记者近两天对AI从业者的采访，DeepSeek-V3的呈现，为业界供给了新的启示。其一，年夜模子研发，存在多种可能的开展门路。ChatGPT走的是年夜参数、年夜算力、年夜投入的门路，对算力跟资金的请求极高，这种资本耗费是绝年夜少数创业公司无奈支持的。即便是OpenAI、Anthropic融资较丰沛的公司，也面对投资报答的贸易化困难。推理模子是另一条门路。O1、O3的结果，证实这条路也是可行的。但同样，它也是树立于绝对昂扬的算力跟资金本钱基本上，尤其是算力。DeepSeek -V3是第三条门路。与以后年夜模子练习动辄请求万卡集成比拟，它只用2000张A100 GPU练习，就实现了与GPT-4o 跟 Claude-3.5-Sonnet多少乎等效的结果，不克不及不令人敬仰。一位在硅谷从事AI研讨的华人工程师告知21世纪经济报道记者，不消除另有更多的门路抉择，比方V3的MLA架构、MoESparse 构造与O3的推理才能相联合，可能发生新的年夜模子范式。假如实现，那将是令人惊奇的。其二，人工智能竞争，中国不只仅是追随者，而是正在年夜幅晋升翻新才能。实在V2宣布时，硅谷就惊奇地称之为“来自西方的奥秘力气”。DeepSeek开创人梁文锋往年7月在接收媒体采访时说，硅谷习气于将中国AI公司视为follow的脚色，当一其中国公司以翻新奉献者的身份，参加到他们游戏里去，并且表示优良时，他们就很震动。梁文锋以为，更多的投入并纷歧定发生更多的翻新，不然年夜厂能够把全部的翻新包办了。研讨跟技巧翻新将永久是DeepSeek第一优先级。值得留神的是，依据业内专家测算，DeepSeek在V2、V3上并不亏钱。V3取得硅谷一批著名AI年夜佬的点赞。Lepton AI开创人、阿里巴巴原副总裁贾扬清表现，DeepSeek是聪明跟适用主义的表现：在无限的盘算资本跟人力前提下，经由过程聪慧的研讨发生最好的成果。这是一句相称中肯的评估。独一无二。宇树科技克日宣布Unitree B2-W呆板狗视频，托马斯全旋、侧空翻、360°腾跃转体、2.8米腾空奔腾，乃至能驮着一名成年女子稳步行走。这多少天，技巧探讨园区里四处可见对这家前沿中国呆板人企业的喝彩声，有批评称其技巧足以“吊打”当今开始进的呆板人公司波士顿能源。上周还在A股市场掀起了一阵“宇树科技观点”上涨潮。其三，翻新素来不是单维度、单向度的，AI推翻式翻新正在成为可能。研收回ChatGPT 的OpenAI确切了不得，它开启了人工智能的新一轮海潮。但OpenAI也不是神，也有开展偏向的阻碍，有融资的困难，有门路抉择的迟疑。从前两三年，AI界一个风行的见解是，假如说硅谷企业善于从0到1，那咱们则善于从1到10，由于中国有广阔的利用市场。但梁文锋以为，以后阶段还是AI技巧翻新的暴发期，而不是利用的暴发期。从感性的角度，须要否认咱们与OpenAI、Anthropic、DeepMind这些天下进步AI公司的差距。比方，即便是代表闭源年夜模子最前沿程度的V3，多项机能表示与GPT-4o邻近，那也是后者7个月前的技巧程度；而OpenAI这多少个月已持续推出o1、o3这类新的“变异”物种。更况且，其余年夜少数的模子产物，放在多言语、多模态的国际视线看，差距要更年夜。但这一轮人工智能海潮之以是愈加令人等待，就是由于，它带来的反动性设想力乃至要超出互联网之于传统经济的变更力气。正如梁文锋所说，中国工业构造的调剂进级，会更依附硬核科技的翻新。在半导体、年夜模子等范畴，史无前例的机遇在等候着中国企业，可能带来AI推翻性翻新的，就将成为下一个巨大的企业。前述硅谷华人工程师感叹地说，再巨大的企业，都不敢止步不前，不劳而获。5年前，谁会想到，英特尔会沉溺到风闻要被收购的运气？现在天别看英伟达方兴未艾、GPU求过于供，但假如量子芯片年夜范围商用的时光表年夜年夜收缩，或许像V3如许不再依附于万卡集成做练习研发，而它持续猛攻原有开展门路，那么所谓的“英伟达泡沫幻灭”也是完整可能产生的。　　申明：新浪网独家稿件，未经受权制止转载。 -->

上一篇：用AI做应聘，靠谱吗？

下一篇：没有了

如影随形

影子是一个会撒谎的精灵，它在虚空中流浪和等待被发现之间;在存在与不存在之间....

您现在的位置是：主页 > 慢生活 >

21察看￨“西方奥秘力气”再爆火 AI比赛突起中国

相关文章