如影随形

影子是一个会撒谎的精灵,它在虚空中流浪和等待被发现之间;在存在与不存在之间....

您现在的位置是:主页 > 慢生活 >

21察看│“西方奥秘力气”再爆火 AI比赛突起中国

发布时间:2024-12-31 08:32编辑:[db:作者]浏览(86)

    21世纪经济报道记者孔海丽 北京报道DeepSeek再次爆火。克日,海内AI始创公司DeepSeek宣布了新一代年夜言语模子DeepSeek-V3,同时发布开源。在多项基准测试中,V3的成就超出了主流开源模子,并跟天下顶尖的闭源模子不分手足。更主要的是,V3的练习本钱极低,仅为GPT-4o的二非常之一;售价也低,输入+输出价钱约为GPT-4o的非常之一。不外其现在不支撑多模态输入输出。DeepSeek是著名量化资管公司幻方旗下的人工智能公司,建立于2023年7月。被冠以“AI界高效廉价典型”的DeepSeek,给以后的人工智能技巧与开展门路供给了一个新的偏向,奉献了AI比赛中的中国力气。DeepSeek的“暴力美学”多个实测标明,数学基准(MATH 500)跟AIME 2024测试方面,V3超出了以后国际主流年夜模子Llama 3.1 405B、 Claude 3.5 Sonnet 跟 GPT-4o;代码才能(Codeforces 基准),比外洋主流年夜模子超过约 30 分;软件工程(SWE-bench Verified)跟常识问答方面,略逊于Claude 3.5 Sonnet。因而,DeepSeek 的技巧论文骄傲地声称,“综合评价标明,DeepSeek-V3-Base 曾经成为现在可用的最强盛的开源基本模子,特殊是在代码跟数学方面。它的谈天版本在其余开源模子上的表示也优于其余开源模子,并在一系列尺度跟开放式基准测试中实现了与 GPT-4o 跟 Claude-3.5-Sonnet 等当先闭源模子的机能相称。”更主要的是,这一成绩,是在极低的练习本钱下获得的。DeepSeek的技巧论文表露:“咱们的预练习阶段在不到两个月的时光内实现,本钱为 2664K GPU 小时。联合 119K GPU 小时的高低文长度扩大跟 5K GPU 小时的后练习,DeepSeek-V3 的完全练习本钱仅为 2.788M GPU 小时。假设 H800 GPU 的房钱为每 GPU 小时 2 美元,咱们的总练习本钱仅为 557万美元。”Anthropic首席履行官达里奥·阿莫迪此前流露,GPT-4o的模子练习本钱约为1亿美元。而仅仅是练习一个7B的Llama 2,就要破费76万美元。也就是说, DeepSeek-V3的练习本钱仅为同机能模子的十多少分之一。这让全部AI界都为之震动。据报道,仍处于研发进程中的GPT-5 ,至少已停止过两轮练习,每轮练习耗时数月,仅一轮盘算本钱就濒临 5 亿美元。一年半从前,GPT-5仍未问世。这象征着,新一代通用年夜模子的练习本钱已到达十多亿美元乃至更高。马斯克旗下的xAI刚实现60亿美元融资,主要开销之一是将数据核心Colossus的范围扩展一倍,GPU数目到达20万颗。依照这种练习门路,将来三年内,AI年夜模子的练习本钱将回升至100亿美元乃至上不封顶。恰是在这种配景之下,一段时光以来AI界发生了对Scaling law的质疑。GPT-5难产,OpenAI转向了另一条开展门路:推理模子。而且很快发生结果:令人冷艳的o1推理模子,以及刚宣布的O3推理模子。而O3的出色表示,让局部专家惊呼,在前去AGI的路上曾经不了阻碍。人工智能始创公司遭到宏大的启示,并牢牢追随。前未几刚从硅谷考核返来的零一万物开创人李开复说,从前各人感到预练习做好就够了,一年当前(O1呈现后)发明Post train(后练习)也同样主要。他以为,良多AI公司都在向推理模子方面开展,5个月当前会有不少相似o1 模子的才能呈现在各个模子公司,包含零一万物,都在往o1 偏向疾走。但DeepSeek-V3的呈现,供给了新的可能。更短的时光,更高的效力,更低的本钱,到达等同的程度,通用年夜言语模子的开展门路上,奉献了“中国版本”。新的变更曾经产生现实上,往年5月6日,DeepSeek宣布DeepSeek-V2开源MoE模子,就以其高效机能在寰球AI界掀起了一波热度。而其API接口订价断崖式降为每百万tokens输入1元、输出2元(32K高低文),价钱仅为GPT-4-Turbo的近百分之一。随后,智谱AI、字节跳动、阿里云、百度、腾讯云旗下年夜模子不得不跟进贬价。并且腾讯跟百度发布多少款年夜模子产物收费。固然有人将DeepSeek-V2称为“AI界的拼多多”,但这个比方不太适当,由于二者多少乎不个性。DeepSeek -V3 的 API订价进步到输入2元/M tokens,输出为8元/M tokens(45天的价钱优惠期后),固然比V2年夜幅上涨,但也只相称于 Claude 3.5 Sonnet 用度的 1/53,后者每百万tokens输入3美元、输出15美元。依据记者近两天对AI从业者的采访,DeepSeek-V3的呈现,为业界供给了新的启示。其一,年夜模子研发,存在多种可能的开展门路。ChatGPT走的是年夜参数、年夜算力、年夜投入的门路,对算力跟资金的请求极高,这种资本耗费是绝年夜少数创业公司无奈支持的。即便是OpenAI、Anthropic融资较丰沛的公司,也面对投资报答的贸易化困难。推理模子是另一条门路。O1、O3的结果,证实这条路也是可行的。但同样,它也是树立于绝对昂扬的算力跟资金本钱基本上,尤其是算力。DeepSeek -V3是第三条门路。与以后年夜模子练习动辄请求万卡集成比拟,它只用2000张A100 GPU练习,就实现了与GPT-4o 跟 Claude-3.5-Sonnet多少乎等效的结果,不克不及不令人敬仰。一位在硅谷从事AI研讨的华人工程师告知21世纪经济报道记者,不消除另有更多的门路抉择,比方V3的MLA架构、MoESparse 构造与O3的推理才能相联合,可能发生新的年夜模子范式。假如实现,那将是令人惊奇的。其二,人工智能竞争,中国不只仅是追随者,而是正在年夜幅晋升翻新才能。实在V2宣布时,硅谷就惊奇地称之为“来自西方的奥秘力气”。DeepSeek开创人梁文锋往年7月在接收媒体采访时说,硅谷习气于将中国AI公司视为follow的脚色,当一其中国公司以翻新奉献者的身份,参加到他们游戏里去,并且表示优良时,他们就很震动。梁文锋以为,更多的投入并纷歧定发生更多的翻新,不然年夜厂能够把全部的翻新包办了。研讨跟技巧翻新将永久是DeepSeek第一优先级。值得留神的是,依据业内专家测算,DeepSeek在V2、V3上并不亏钱。V3取得硅谷一批著名AI年夜佬的点赞。Lepton AI开创人、阿里巴巴原副总裁贾扬清表现,DeepSeek是聪明跟适用主义的表现:在无限的盘算资本跟人力前提下,经由过程聪慧的研讨发生最好的成果。这是一句相称中肯的评估。独一无二。宇树科技克日宣布Unitree B2-W呆板狗视频,托马斯全旋、侧空翻、360°腾跃转体、2.8米腾空奔腾,乃至能驮着一名成年女子稳步行走。这多少天,技巧探讨园区里四处可见对这家前沿中国呆板人企业的喝彩声,有批评称其技巧足以“吊打”当今开始进的呆板人公司波士顿能源。上周还在A股市场掀起了一阵“宇树科技观点”上涨潮。其三,翻新素来不是单维度、单向度的,AI推翻式翻新正在成为可能。研收回ChatGPT 的OpenAI确切了不得,它开启了人工智能的新一轮海潮。但OpenAI也不是神,也有开展偏向的阻碍,有融资的困难,有门路抉择的迟疑。从前两三年,AI界一个风行的见解是,假如说硅谷企业善于从0到1,那咱们则善于从1到10,由于中国有广阔的利用市场。但梁文锋以为,以后阶段还是AI技巧翻新的暴发期,而不是利用的暴发期。从感性的角度,须要否认咱们与OpenAI、Anthropic、DeepMind这些天下进步AI公司的差距。比方,即便是代表闭源年夜模子最前沿程度的V3,多项机能表示与GPT-4o邻近,那也是后者7个月前的技巧程度;而OpenAI这多少个月已持续推出o1、o3这类新的“变异”物种。更况且,其余年夜少数的模子产物,放在多言语、多模态的国际视线看,差距要更年夜。但这一轮人工智能海潮之以是愈加令人等待,就是由于,它带来的反动性设想力乃至要超出互联网之于传统经济的变更力气。正如梁文锋所说,中国工业构造的调剂进级,会更依附硬核科技的翻新。在半导体、年夜模子等范畴,史无前例的机遇在等候着中国企业,可能带来AI推翻性翻新的,就将成为下一个巨大的企业。前述硅谷华人工程师感叹地说,再巨大的企业,都不敢止步不前,不劳而获。5年前,谁会想到,英特尔会沉溺到风闻要被收购的运气?现在天别看英伟达方兴未艾、GPU求过于供,但假如量子芯片年夜范围商用的时光表年夜年夜收缩,或许像V3如许不再依附于万卡集成做练习研发,而它持续猛攻原有开展门路,那么所谓的“英伟达泡沫幻灭”也是完整可能产生的。   申明:新浪网独家稿件,未经受权制止转载。 -->

上一篇:用AI做应聘,靠谱吗?

下一篇:没有了