这个春节的喜庆,相当一部分是DeepSeek给的。杭州深度求索人工智能基础技术研究有限公司(DeepSeek)作为2025年春节的“王炸”,其发布的大语言基座模型DeepSeek-V3与推理模型DeepSeek-R1,不久前在中国地区与美国地区应用商店App下载排行榜折桂,也使得微软、英伟达、亚马逊、英特尔等科技巨头争相上线DeepSeek模型服务,震撼了全世界AI领域与金融领域,更是让国人扬眉吐气过了个大年。回想起在2023年的春节前不久,美国大语言模型ChatGPT狂飙登台,而当时我国却还没有推出可商用的国产AI大模型;在2024年春节期间,美国多模态大模型Sora横空出世,虽然当时国产大模型已处于跟跑阶段,但仍然让国人为中美之间的AI差距捏一把汗,甚至担忧中美之间的AI差距越来越大。
DeepSeek的横空出世,让国产大模型从跟跑国际顶尖大模型的阶段一举跃升至与国际顶尖大模型的并跑阶段,我们从中又能得到哪些启示?
当美国Open AI公司于2022年11月推出ChatGPT时,美国在大模型领域处于明显优势地位。由于当时的中国还没有可商用的国产大模型,中文互联网上一片惊呼“狼来了”。但事实上,中国的部分高科技企业与学术界已经跟跑美国大模型数年了,只是尚未推出商用版而已。从2023年3月开始,国产大模型开始像下水饺似的纷纷推向市场。不过,早期的国产大模型与国际顶尖大模型水平相较还是有一到两个技术代差。好多人测试早期的国产大模型时还闹出了不少笑话。例如让它画一个胸有成竹的男人,竟画出了身上插满了竹子的男人。早期的个别国产AI大模型虽然幼稚了些,但其敢于亮剑的精神,依然值得尊敬。 经过数年的技术跟跑阶段,中国DeepSeek大模型一经推出即登C位。简单来看,DeepSeek-R1在数学、代码、自然语言对话等任务上的性能,可以比肩OpenAI GPT-o1,实现了与国际顶尖大模型的技术并跑。其最核心的优势在于对人工智能三要素(数据、算力、算法)等进行了系统级协同创新与工程优化。例如,在数据方面,与OpenAI“海量数据投喂”的方式不同,DeepSeek把数据进行总结和分类,经过选择性处理之后,输送给大模型,提高了训练效率;在算力方面,与OpenAI“算力大气粗”的方式不同,DeepSeek对低配版GPU集群(甚至多源异构算力)进行智能管理,打破了“大力才能出奇迹”的算力魔咒;在算法方面,与OpenAI打造“全能大模型”的方式不同,DeepSeek进行了基于群智协同的系统工程优化,主要包括混合专家模型、负载均衡、多头潜在注意力机制、大小模型协同、强化学习推理,以及诸如FP8混合精度和负载均衡、通信优化、内存优化、计算优化等工程优化方法。 DeepSeek-R1的输出价格为2.19美元/百万Token,相对于GPT-o1的60美元/百万Token,价格下降了近30倍。
DeepSeek的大胆创新震撼了全世界的AI领域与金融领域,不少人惊呼:中国大模型一夜之间实现了对美国的“弯道超车”。但科技领域的创新是不可能一蹴而就轻易实现的,而是需要长期的孵化后才能厚积薄发。DeepSeek是2023年7月才成立的,表面上让人感觉是短时间内实现了对OpenAI的弯道超车。但早在2008年,DeepSeek创始人梁文峰便开始带领团队研发机器学习、深度学习等技术探索全自动量化交易,这意味着团队在深度学习领域已经深耕16载了。 DeepSeek成立后,当时的国际背景是OpenAI刚在2024年2月15日推出Sora之后,又于2024年5月14日推出了可实时进行音频、视觉和文本推理的升级大模型GPT-4o。“o”代表“omni”,即“全能”。这使得中美AI大模型竞争局势进一步升级。当时,国产大模型与国际顶尖大模型确实存在着技术上的代差。但是,若在“卷算力”赛道上盲目跟跑美国,进而实现“弯道超车”并不明智。以2016年的人机围棋大赛为例,表面上是英国DeepMind公司出品的AlphaGo以4:1赢了韩国9段棋手李世石。但是,当时训练AlphaGo花费了40天,需要耗费算力、电力合计约3500万美元,且每下一局还要耗费约3000美元,而李世石下一盘棋只花费了2碗米饭。可见在资源受限的情况下实际是人类赢了。因此,通用人工智能AGI的发展方向应该借鉴人类大脑的进化路径。 于是,DeepSeek不惧个别国家发起的“芯片禁令”和构筑的“小院高墙”,开始在算力资源受限下另辟蹊径,通过对人工智能三要素(数据、算力、算法)等进行了一系列的系统级协同创新与工程优化,并选择向全世界开源,这无疑走出了与OpenAI等国外公司不同的技术路线,可谓是一个“筋斗云”实现了“换道超车”。与其说DeepSeek在性价比上超越了OpenAI,更准确的表达应该是其在国际大模型赛道又做了新一轮的迭代,这也是DeepSeek对大模型进行开源的初衷。 当美国Open AI公司于2024年2月15日推出Sora时,正值中国正月初六。由于Sora在视频生成能力上一骑绝尘,远超当时国产的多模态大模型,使得中文互联网上惊呼“连个年都没有过好,难道中美之间的AI差距进一步拉大了”。但自从DeepSeek这匹黑马通过“小米加步枪战胜飞机大炮”的方法杀出算力围堵的重围后,有人又觉得中国AI已经完全突破了“芯片禁令”和 “小院高墙”,甚至已经遥遥领先美国了。
Meta创始人兼CEO扎克伯格表示:“DeepSeek非常先进,中美之间的AI差距已经非常小。”美国斯坦福大学计算机科学系客座教授吴恩达力挺DeepSeek:“中国在生成式AI领域正赶超美国。”确实,DeepSeek缩短了中美之间的AI差距,但远远达不到中国AI已经遥遥领先。无论是唱衰中国AI水平还是“捧杀”中国AI水平,两者都不可取。 AI产业分基础层、技术层、应用层。我国在AI应用层处于国际领跑,在AI技术层处于国际并跑,在AI基础层处于国际跟跑。无论是OpenAI还是DeepSeek,它们都基于美国谷歌公司在2017年提出的Transformer架构,不属于从0到1的颠覆性基础理论创新,皆属于从1到100的大规模工程整合创新。DeepSeek的创新更是包含了一种从架构设计到工程优化全流程的系统级技术突破与技术创新。 我国在AI基础层目前尚处于国际跟跑,主要原因包括:1.虽然我国的数据总量超过美国的数据总量几十倍,但我国高质量的数据量不足;2.我国的算力总量不小,仅略低于美国,但高端智能算力缺口很大;3.虽然我国的AI工程师与AI创业者总量全球第一,但我国顶尖AI科学家数量还不足。未来AGI赛道的核心竞争力更会来自于基础层的大数据、大算力与强算法。我国在AI基础层与国际先进水平的差距当然会影响中国版AGI的性能。因此,要改变这个局面,中国科技人才包括青年学生需要在基础研究,特别是从0到1的创新上有更多的定力、花更大的功夫。以后,中美之间在AGI赛道上你追我赶会是常态,中国不会永远是跟跑,也常常会领跑,但目前还远远谈不上遥遥领先。 在AGI成为大趋势、新质生产力成为热词的背景下,AI作为激发新质生产力的重要力量,带来的是巨大的“AI+X”人才需求缺口。但培养适应AGI时代的人才,常常面临学科跨界与人机跨界的双重挑战。这样的跨界不仅仅是人机物的三元融合,更是思维、认知和组织结构的跨越。随着弱AI向AGI迈进,可谓是人类为机器打开了笼子。然而,部分学生还在采取上一代人的学习方法,花费大量时间对知识点进行反复地死记硬背,提高自己的重复脑力劳动能力,这简直是把自己关进了刷题的笼子。但是,人的脑算力能快得过云计算吗?人的脑容量能赶得上大数据吗?不管人类的重复脑力劳动能力有多厉害,在机器面前都是小儿科。过于大量刷题就像现在的士兵花费大量时间去耍大刀一样毫无意义。
在工业文明时代大显身手的爱迪生有句名言:“天才来自1%的灵感和99%的汗水”。但随着ChatGPT敲开了AGI大门后,99%的搬砖汗水将会逐渐被机器所取代,只有那1%的人类灵感是不容易被机器取代的。因此,在读书阶段,年轻学子要用基于自主学习的创新汗水去灌溉那1%的人类灵感——蕴含着人类意识与人性光辉的基础创新、平台创新、内容创新、模式创新以及文理商工跨学科融合创新能力,提升自己的人机协同能力,并鹤立“机”群。当机器越来越像人,人要更像人。
目前,浙江大学、复旦大学、浙江财经大学等高校已将人工智能作为全校大学生通识必修课程,并且推出了“AI+X”微专业,以进一步加强人工智能通识教育和交叉学科教育。浙江多地的大中小学AI教育一体化建设也已经得以有利推进。例如,在浙江财经大学的支持下,杭州市青少年科技教育协会发起了“以AI为爱,温暖起跑线”行动,为广大中小学生推出了一系列的AI公益讲座、AI玩乐会、AIGC实操等活动,这启迪了广大青少年的创新能力和AI应用实践能力,并共同探寻“人机共智”的“青春路径”。