图片源于:https://www.bradfordtoday.ca/national-business/what-is-deepseek-the-chinese-ai-company-upending-the-stock-market-10139592
中国科技初创企业DeepSeek开发的人工智能聊天机器人让股市在周一出现波动,并激发了人们对于美国与中国在人工智能技术发展方面经济和地缘政治竞争的讨论。
DeepSeek的AI助手成为了苹果iPhone商店周一下载量最多的免费应用程序,这一现象引发了人们对这一ChatGPT竞争者的好奇。
一些美国科技行业观察家担心的是,这家中国初创公司以相对低廉的成本赶上了美国领先的生成性人工智能公司。
如果这一说法属实,那么就会质疑美国科技公司所宣布的大量投资数据中心和计算芯片以推动进一步人工智能发展的计划是否合理。
然而,关于DeepSeek技术进展的夸大和误解也引发了混乱。
“他们构建的模型很棒,但也不是奇迹,”分析师Stacy Rasgon对此表示,他关注半导体行业,并称华尔街的反应有些过分。
“他们并没有使用任何未知或秘密的创新,事实上这些技术都是大家在实验的内容。”Rasgon说道。
DeepSeek是什么?
DeepSeek于2023年在中国杭州成立,并在同年发布了其首个人工智能大型语言模型。
其首席执行官梁文峰曾共同创立中国顶尖对冲基金High-Flyer,该基金专注于基于AI的量化交易。
到2022年,该基金已积累了一批来自加州的英伟达高性能A100图形处理器芯片,这些芯片用于构建和运行AI系统, 据称在2022年夏天的中国社交媒体平台微信上发布的帖子中提到。
随后,美国限制了对华销售这些芯片。
DeepSeek表示其近期模型是用英伟达的H800芯片构建的,这些芯片在中国并没有被禁止,
向外界传达了一个信息,即最先进的硬件可能不是边界技术研究的必要条件。
DeepSeek在上个月开始引起了AI行业更多的关注,当时它发布了一种新型AI模型,声称其能力可与美国公司的类似模型相媲美,如ChatGPT的制造商OpenAI,并且在使用昂贵的英伟达芯片训练系统数据方面更加具性价比。
在今年早些时候,这款聊天机器人在苹果和谷歌应用商店上变得更加广泛可用。
但在上周发布的一篇后续研究论文——与特朗普总统就职那天同时发布——引发了一场随之而来的恐慌。
该论文涉及DeepSeek的另一种AI模型R1,该模型展示了先进的“推理”能力——例如重新思考其解决数学问题的方法——并且其成本显著低于OpenAI的类似模型o1。
“我对他们的经济数据没有了解,但我认为价格点让人感到震惊。”Rasgon说。
‘斯普特尼克’背景
围绕DeepSeek技术能力的讨论,反映了美国内部关于如何才能在AI领域与中国竞争的辩论。
“Deepseek R1是人工智能的斯普特尼克时刻,”风险投资家Marc Andreessen在周日社交平台X的帖子中表示,
提及1957年苏联发射第一颗卫星的事件,引发了冷战期间的太空探索竞赛。
Andreessen曾就科技政策向特朗普提供建议,他警告说美国政府对AI行业的过度监管将会阻碍美国公司的发展,并使中国占据优势。
然而,对DeepSeek的关注也可能会破坏美国近年来限制向中国销售美国设计的AI半导体的关键外交政策。
一些关于美中关系的专家认为,这并非巧合。
“技术创新是真实的,但发布时间在政治上是有目的的,”战略与国际研究中心Wadhwani AI中心主任Gregory Allen表示。
Allen将DeepSeek上周的宣布与美国制裁的中国公司华为在2023年有关拜登政府出口管制的外交谈判期间发布新手机进行对比。
“试图表明出口管制是无效或适得其反的,这是中国外交政策当前非常重要的目标。”Allen补充道。
周一,特朗普表示DeepSeek的突破是“好事,因为你不必花那么多钱。”
特朗普在迈阿密对众议院共和党人表示,如果这一消息属实,那就是“积极的,因为你不会花那么多钱,而且能够获得同样的结果”。
他称这一发展是“一个叫醒我们行业的信号,我们需要专注于竞争以赢得胜利。”
上周特朗普在就职的第一天签署了一项命令,表示他的政府将“识别并消除现有出口管制的漏洞”,这表明他很可能会继续并加强拜登的政策。
DeepSeek在没有相同投资额度的情况下取得的进展,可能会削弱特朗普夸耀的OpenAI、Oracle和软银潜在的5000亿美元AI投资的基础。
周一,英伟达的股价下跌了17%,但该公司在一份声明中赞扬DeepSeek的工作,称这是一项“优秀的AI进展”,利用了“广泛可得的模型和符合所有出口管制的计算能力”。
DeepSeek有什么不同?
DeepSeek与OpenAI等竞争对手的一个显著区别在于其模型是“开源的”——意味着关键组件对任何人都可以免费访问和修改,尽管该公司尚未披露其用于训练的数据。
但是,最让人赞赏的是DeepSeek的R1模型,英伟达称之为“测试时间扩展的完美示例”——即AI模型有效地展示其思维过程,
然后利用这些信息用于进一步训练,而无需提供新的数据源。
“这基本上就是在大声思考,”兰德公司研究员Lennart Heim表示。
OpenAI的推理模型从o1开始也做同样的事情,而其他美国竞争对手如Anthropic和谷歌,很可能也拥有尚未发布的类似能力,Heim说。
但“这是我们第一次看到一家中国公司在相对较短的时间内如此接近。这就是为什么很多人对此比较关注的原因。”Heim说道。
“我过去相信OpenAI是行业领导者,是山顶之王,没有人能赶上。
结果证明并非完全如此。”