工程院院士与DeepSeek过了一招 究竟是怎么过招的?-鼎巢网

工程院院士与DeepSeek过了一招 究竟是怎么过招的?

   2025-03-03 10:48:46 上观新闻鼎巢网9
核心提示:近日,DeepSeek的出现引发了全球科技领域的广泛关注和深入讨论。中国科协会刊《科技导报》2025年第3期刊发了中国计算机学会原理事长李国杰院士的文章《DeepSeek引发的AI发展路径思考》,探讨了DeepSeek背后所蕴含的AI发展路径问题。
 【工程院院士与DeepSeek过了一招】近日,DeepSeek的出现引发了全球科技领域的广泛关注和深入讨论。中国科协会刊《科技导报》2025年第3期刊发了中国计算机学会原理事长李国杰院士的文章《DeepSeek引发的AI发展路径思考》,探讨了DeepSeek背后所蕴含的AI发展路径问题。

工程院院士与DeepSeek过了一招
工程院院士与DeepSeek过了一招

李国杰是中国工程院院士、发展中国家科学院(TWAS)院士,研究方向涵盖计算机体系结构、并行算法、人工智能等多个领域。

DeepSeek的横空出世是人工智能发展史上的标志性事件。短短7天内,用户增长超过1亿,打破了用户增长速度的世界纪录。与此同时,英伟达股价单日暴跌17%,市值缩水5890亿美元,创下美国上市公司单日最大损失纪录。这表明,高算力和高投入不再是发展人工智能的唯一途径,集成电路制程优势也不再等于人工智能技术霸权。DeepSeek引领行业进入以算法和模型架构优化为主的新时期,同时高度重视数据质量和规模,并理性提高算力。此外,DeepSeek标志着中国科技公司从“追赶者”变为“规则改写者”,在全球人工智能领域展现出颠覆性创新。

全球人工智能龙头企业纷纷拥抱DeepSeek,微软最早宣布将其R1模型添加到Azure AI Foundry,亚马逊云科技(AWS)、英伟达、超威半导体(AMD)等也相继部署DeepSeek V3和R1模型。上亿用户和众多大公司根据性价比和亲身体验主动融入DeepSeek生态。DeepSeek推出的高效率、低成本推理模型和开源商业模式,引领了人工智能行业新潮流。

V3和R1模型受欢迎的原因在于其在模型算法和系统软件层次的重大创新。V3模型参数量高达6710亿,但采用混合专家模型(MoE)架构后,每次调用仅激活约370亿个参数,显著降低了训练计算成本。改进的多头潜在注意力机制(MLA)减少了键值缓存开销,将显存占用降至其他大模型的5%~13%,提升了运行效率。R1模型摒弃传统监督微调(SFT),提出群组相对策略优化(GRPO),通过强化学习激发推理能力,简化了训练流程。这些发明虽非首次提出,但DeepSeek通过努力将技术做到极致,在前人成果基础上登上新的技术高峰。

第3波人工智能兴起后,美国政府、AI龙头企业和投资界认为高算力是发展人工智能的关键。特朗普签署法案启动星际之门计划,投资5000亿美元打造基础设施。然而,DeepSeek的成功揭示了真相,即推理模型开发比想象中简单,各行各业都能参与。初生牛犊不怕虎的中国科技工作者戳破了纸老虎,展示了其实力。

2020年,OpenAI发表论文提出规模法则,认为增加模型规模、数据量和计算资源可以显著提升性能。但规模法则并非科学定律,而是经验归纳。近几年大模型训练效果表明,要获得线性增长需高指数性增加投入,这种模式难以持久。理查德·萨顿指出,虽然规模法则有效,但它不是解决所有问题的万能钥匙,AI系统还需具备持续学习、适应环境等能力。

DeepSeek的出现迫使AI界重新思考技术路线:是继续追求高算力还是在算法优化上下功夫?DeepSeek标志着从外延式发展阶段转向集约化系统优化阶段。尽管成功并未否定算力的重要性,但绿色发展和降低能耗成为重要目标。

通用人工智能是一个模糊概念,OpenAI追求的是多个领域处理复杂问题的能力。莫拉维克悖论指出,复杂问题易解而简单问题难解。因此,学术界更关注智能系统的持续学习和自我改进能力。实现通用智能是渐进过程,不会因某项技术突然到来。

DeepSeek和OpenAI都以通用人工智能为目标,但路径不同。OpenAI通过扩大模型规模希望先做出通用基础模型再蒸馏出垂直模型。DeepSeek则走“由专到通”的道路,通过模型算法和工程优化探索受限资源下的通用智能。未来可能是通专融合,形成智能时代产业新生态。

科技界公认图灵是人工智能奠基人,他提出了计算模拟人类智能的假说。迄今为止,人工智能成果离不开计算,但高算力是否本质需求值得深思。人脑高效低功耗是因为分布式模拟计算。深度学习奠基人辛顿提出“凡人计算”,采用与人脑相同的存算一体模拟计算方式,追求高算效和高能效,这是正确方向。

斯坦福大学华裔科学家团队基于阿里通义千问模型,结合谷歌AI推理模型Gemini 2.0 Flash Thinking Experimental,使用16个英伟达H100 GPU进行了26分钟训练,以不到50美元费用成功训练出s1模型,性能超越高端模型。低成本模型显示出巨大潜力。

过去几年,开源大模型性能始终落后于闭源大模型,但DeepSeek改变了这一局面,增强了开源社区信心。杨立昆认为开源模型正在超越闭源模型,改变发展模式比单项技术突破更重要。DeepSeek彻底开源模式破解了企业数据安全难题,真正实现了技术民主化。

长期以来,美国AI龙头公司夸大开源AI的安全风险,抑制开源AI发展。事实上,开源模型对全球AI供应链至关重要,尤其是发展中国家。若美国继续设置障碍,中国有望在开源AI全球供应链中占据核心地位。真正的AI竞争不仅是技术和模型的竞争,更是生态系统、商业模式和价值观的竞争。开源战略将证明谁拥抱开源,谁就能赢得未来。

有人认为ChatGPT是0到1的突破,而DeepSeek只是1到N的扩展,但这不符合人工智能发展历史。中国企业在应用创新和商业模式创新方面表现出色,但原创能力逐渐增强。DeepSeek可能标志着中国AI产业从“技术跟跑”向“技术并跑和领跑”迈进。

尽管中国在人工智能基础研究和核心技术上仍与美国有差距,但在论文发表总数和专利授权数量上超过美国。近年来中国进步迅速,根据统计,中国作者在过去四年增长了8倍。人工智能产业具有不对称性,一个小企业可以挑战市值上万亿的龙头企业。中国已有52家人工智能独角兽企业,占全球18%。这表明中国已有一批创新型小企业进入世界前列。

DeepSeek的成功说明算法优化和系统级工程优化不可或缺,优秀工程师发挥着重要作用。良好的工程教育体系和庞大的工程师队伍是中国的优势。年轻一代正成为科研主力,有信心在人工智能研究和应用上走在前面。

实现人工智能自立自强不仅靠国家规划和资金支持,更要做好人才使用培养和产业生态构建。DeepSeek创始人梁文锋强调自信,选择初出茅庐的年轻人,拒绝经验丰富的人才。这种用人理念为公司带来创新动力,对传统教育和聘用模式提出警示。

构建自主可控的产业生态是最困难的任务。英伟达的CUDA软件生态是其护城河,DeepSeek冲击了这一生态但未完全绕过。长远来看,需要开发一套自主可控的AI软件工具系统,重构AI软件生态。这需要周密规划和长期努力,相关部门应组织全国力量完成这一任务。

资金投入虽非决定因素,但中国投资市场规模急剧萎缩值得关注。2023年美国AI投资达到672亿美元,是中国的8.7倍。风险投资和私募基金对科创产业极为重要,中美科创市场曾并驾齐驱,但2023年中国投资额仅相当于美国的8%。政府和资本界需合力构建健康的科创金融生态,为创新提供动力。

产业生态形成需市场牵引,国家应通过政策引导推广AI应用,增强国产硬件和软件市场占有率。重视芯片设计和大模型开源战略,争取中国在全球人工智能开源系统中的主导作用。通过算法和软件协同创新,充分发挥硬件性能,力争中国人工智能科研和应用走在世界前列。

 
免责声明:以上所展示的信息由网友自行发布,内容的真实性、准确性和合法性由发布者负责。 鼎巢网对此不承担任何保证责任, 鼎巢网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张(包括但不限于侵犯著作权、商业信誉等),请与我们联系并出示相关证据,我们将按国家相关法规即时移除。

本文地址:http://www.dingchaow.cn/news/70821.html

收藏 0打赏 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行

免责声明:本站所有信息均来自互联网搜集,产品相关信息的真实性准确性均由发布单位及个人负责,请大家仔细辨认!并不代表本站观点,鼎巢网对此不承担任何相关法律责任!如有信息侵犯了您的权益,请告知,本站将立刻删除。
友情提示:买产品需谨慎
网站处理与建议:wfmyw@qq.com