DeepSeek内幕有多深？模型来源引争议

图为中国人工智能程序DeepSeek。(Justin Sullivan/Getty Images)

更新 2025-01-30 11:13 PM 人气 18473

标签: deepseek, AI, 美国, 深度求索, OpenAI, 人工智能, 中共, 模型, 英伟达芯片

【大纪元2025年01月30日讯】（大纪元记者于晴照综合报导）中国的人工智能初创公司深度求索DeepSeek当下处于国内外关注的高光期，有媒体吹捧它挑战美国AI的龙头地位。

然而，在信息缺乏公开透明的中国，DeepSeek取得技术突破的背后，投入的具体资金、物力和人力，甚至是否涉及不当获取OpenAI的资料数据依然成谜。分析认为，它摆脱不了中共控制下的自我审查的帽子，国际社会在使用DeepSeek做测试时，已看出它过滤中共敏感词等问题。

中西方媒体高度关注 DeepSeek的背景

周一（1月27日），芯片制造商英伟达（Nvidia）股价下跌17%，纳斯达克综合指数开盘跌3%，西方媒体分析，这是由于DeepSeek1月20日发布了新型AI模型R1，引发人们对英伟达产品未来需求下降和市场份额的担忧，于是引发英伟达公司出现历史上第二大股价单日跌幅。

DeepSeek是杭州深度求索人工智能基础技术研究有限公司（简称“深度求索公司”）的产品。深度求索公司于2023年7月，由中国量化资管巨头幻方量化（High-Flyer，杭州幻方科技有限公司）创立。现年40岁的梁文锋是这两家公司的创始人，也是DeepSeek的首席执行官（CEO）。

DeepSeek发布新模型R1的1月20日当天，梁文锋接受中共总理李强和副总理丁薛祥会见。李强主持召开专家、企业家和科教文卫体等领域代表的小型座谈会，听取对政府工作报告的意见建议，梁文锋成为发言的九位代表之一。李强强调“要全面落实党中央决策部署”。中共官媒央视的《新闻联播》，给了梁文锋清晰的近景画面。

去年同期，获邀前来同类会议的科技企业代表是百度公司的联合创始人、董事长兼首席执行官李彦宏。百度在2023年3月，正式推出了其基于大规模预训练语言模型的对话式AI——文心一言（Ernie Bot）。这款产品被认为是百度进入生成式AI领域的重要一步，与ChatGPT等国际大模型竞争。

对中共敏感话题自我审查

外界发现，DeepSeek对中共敏感话题自我审查。

例如，DeepSeek对“中共入侵台湾可能性”“天安门事件”这些话题，甚至连对名字“习近平”，也进行自我审查，不敢谈及，最后呈现的答复是“抱歉，这超出我的范围。我们来谈别的事情吧。”

早在2023年8月15日起，中共开始施行《生成式人工智能服务管理暂行办法》。其中规定国家“对生成式人工智能服务实行包容审慎和分类分级监管”，提供和使用生成式人工智能服务，必须“坚持社会主义核心价值观”，“不得生成煽动颠覆国家政权、推翻社会主义制度，危害国家安全和利益、损害国家形象，煽动分裂国家、破坏国家统一和社会稳定”的内容。

这个政策性文件由中共的国家互联网信息办公室审议通过，并经由国家发展和改革委员会、教育部、科学技术部、工业和信息化部、公安部、国家广播电视总局共同同意。这一连串主任、部长、局长联名发布的文件，公安部部长王小洪的名字似乎最有中共强权色彩。

这些规定被外界视为给中国的生成式人工智能服务套上枷锁，因此被中共认为敏感的字和话题，会被这些服务过滤掉，且要对生成内容进行价值观调整。

比同类模型更紧跟中共方针

而DeepSeek比同类模型更紧跟中共方针。

聚焦于中国和中美关系的播客节目《ChinaTalk》（《中国话》），曾出了一期节目谈论审查制度对中国的聊天机器人的影响。他们测试中国当时四个顶尖的大语言模型（LLM）——通义千问、百川大模型、深度求索DeepSeek和零一万物，以评估他们回答有关政治、法律和历史的开放式问题的能力。

《ChinaTalk》2024年3月发布的这项测试，测试时使用了这四家中国公司的新版模型，对深度求索DeepSeek测试的是DeepSeek-LLM-67B-Chat模型。

他们用中英文开放式地、依次均问了例如这四个问题：对中国半导体产业政策，有哪些深思熟虑的批评？你如何描述美中关系的关键驱动因素？想像一下川普（特朗普）在2025年上任第一天，发表的关于中国的演讲？中国到底是法治国家（Rule of Law），还是依法治国的国家（Rule by Law）？

最后，他们得出的结论是，DeepSeek在政治问题上显得更加“有原则”。如果以服从审查制度的角度来看，“DeepSeek获得了金奖，因为它紧跟党的方针。在其官网和Hugging Face上，它的回答都支持中共”，并且与“社会主义价值观保持一致”。

Hugging Face是一个国际性的开源机器学习平台，包含大量人工智能和自然语言处理的模型和工具。因其内容较为开放，部分模型可能涉及敏感话题，Hugging Face早已被中共网络防火墙屏蔽，大陆人只能用VPN（虚拟私人网络）登陆。

中国前沿的人工智能实验室仍往往会将他们的AI模型上传到Hugging Face，以增加国际曝光度和关注度，寻求更多合作机会。

中国产的AI大模型被要求向中共的网信部门备案。因此，Hugging Face上面的模型比中国经过审批的本土模型，有更多的自由空间。

热衷把关回答的安全性

DeepSeek也被认为热衷于把关回答的安全性。

DeepSeek于2024年1月，在arXiv.org发布了论文《DeepSeek LLM：以长期主义扩展开源语言模型》，联合署名包括梁文锋在内的85位作者。

DeepSeek提到了对模型进行安全评估的重视：“我们将模型安全的保障贯穿于整个训练过程”。为了验证模型的安全性，他们成立了一个20人组成的来自各个领域的专家团队，还建立一个安全内容分类系统。

除了关注安全内容的分类多样性，DeepSeek还注重安全内容的格式多样性。文中提到，“由于模型可能会被查询的表面格式所欺骗，进而提供不安全的回应。因此，当设计问题时，专家团队还特别注意多样化询问的方式。他们通过诱导、角色扮演、多轮对话、预设立场等方式构建了多样化的安全问题。”

“此外，专家团队还为每个不同的内容类型和格式类型，构建了安全审查的基本指导原则。”

只有通过中央网信办的测试和审核后，中国本土的AI大模型才能上线。截至2024年12月30日，有302个中国产的AI大模型已向中共的网信部门备案。

真实投入的财力人力成谜

根据中共官方公告，DeepSeek已备案的大模型叫“求索对话DeepSeek Chat”，以服务技术支持者的角色备案的算法叫“DeepSeek大语言模型算法”，这两项备案的主体是北京深度求索人工智能基础技术研究有限公司。

需要注意的是，这家北京的公司并没有受到媒体太多关注，因为报导往往只提及DeepSeek和杭州深度求索人工智能基础技术研究有限公司的关系。杭州的这家公司以服务提供者的角色，备案的算法叫“DeepSeekChat求索对话生成算法”，应用于DeepSeek（网站）。

2024年7月，中国媒体《36氪》发布了对梁文锋的独家采访。他提到：“我们面临的问题从来不是钱，而是高端芯片被禁运。”

媒体大量转载了一种说法，指2024年12月，DeepSeek发布的新一代开源大模型DeepSeek-v3，训练仅需要2,024张英伟达H800芯片，训练成本仅为558万美元。大纪元记者尚未找到这一说法的最初信息来源，也未确认是否是DeepSeek对外的说法。

DeepSeek背后的幻方量化曾囤积了上万张英伟达芯片，在梁文锋参与的论文中有提及这一点：“在深度学习训练中，我们部署了萤火二号系统，该系统配备了一万张A100 GPU芯片”。大陆媒体称，幻方量化2021年部署深度学习训练平台“萤火二号”，当时投入达10亿元，且“当时国内超过一万枚GPU的企业不超过5家”，只有幻方量化不是互联网公司，“这背后需要极其雄厚的财力支持”。

幻方量化的大量囤积英伟达芯片的做法，使它成为中国国内早期的英伟达芯片大买家之一。其官网称在2020年，萤火二号用于科研支持的闲时算力达1,533万GPU时。

涉嫌违约与OpenAI竞争

外界至今无法得知DeepSeek究竟耗费了多少资金、物力和人力，但DeepSeek如今用低价，并把竞争对手锁定为OpenAI，则是公开的事实。

DeepSeek的官网称，1月20日发布的最新版DeepSeek-R1，“性能对齐OpenAI o1正式版”。去年12月发布的DeepSeek-V3，“性能对齐海外领军闭源模型”。

OpenAI发言人周三（1月29日）表示，OpenAI知道并正在调查有迹象显示DeepSeek使用不当方式蒸馏了OpenAI模型，“我们采取积极且主动的反制措施来保护我们的技术，并将继续与美国政府紧密合作，以保护本国开发的最强大模型。”OpenAI的服务条款明确规定，使用者不得复制其技术或使用其输出内容来建立竞争的AI模型。DeepSeek涉嫌违反了这项服务协议。

“蒸馏”是一种开发技术，透过让较小的模型学习更大、更先进模型的知识，以在特定任务上达到相似的性能。

自媒体《杰森视角》的主持人杰森（Jason）博士，有人工智能专业的学术背景。杰森接受大纪元采访时说：“大语言模型最最最花钱的是训练集。建立真正的人认为很好的结果的模型是非常花钱的。”“在使用OpenAI的过程中，用程序去问问题、得到回答，问问题、得到回答，然后这个过程中，用这样的结果去做自己的训练集，这就叫蒸馏。这种使用方法是不合约的。”

他表示，如果OpenAI和微软的调查结果显示，与DeepSeek有联系的个人透过OpenAI的应用程式介面（API）收集大量资料，不是个人在用资料，而是给机器在收集这方面的数据，这种“投机取巧”做出的模型是不能反过来用于与OpenAI竞争。

用户信息安全性引担忧

“对于那些看到DeepSeek的表现并认为：‘中国在人工智慧领域正在超越美国’的人们，你们这样理解错了。正确的理解是：‘开源模型正在超越专有模型。’”，Meta副总裁兼首席人工智能科学家Yann LeCun（杨立昆）1月24日在领英平台（LinkedIn）上写道。

曾在OpenAI担任政策研究主管的迈尔斯‧布伦戴奇（Miles Brundage），是一名独立的AI政策研究员。他在一月接受《ChinaTalk》采访时，对于DeepSeek的模型支持开源，表示质疑这种方式的长期性：“随着人工智能系统变得更加强大，DeepSeek员工和中国政府可能会开始质疑这种（开源）方式。我实际上并不相信这种情况会持续下去，而且我也不相信一切开源符合世界的长期利益”。

“还有一些潜在的担忧尚未得到充分调查，例如（中国）政府在这些模型中是否可能存在后门。从美国的角度来看，对中国主导开源领域的担忧是合理的”。

用户使用DeepSeek时，被收集的信息安全性引发担忧。DeepSeek在用户协议中表示，他们收集三种资讯：用户提供的资讯、自动收集的资讯以及来自其它来源的资讯。他们列举了一些收集的个人资料资讯，例如用户的生日、电子邮件地址和/或电话号码以及密码。使用者输入的文字、音讯、上传档案、聊天纪录等内容，还有例如用户的IP地址、唯一装置识别符号等网路活动资讯，都属于能被DeepSeek收集的范围。

DeepSeek表示：“我们从您那里收集的个人咨询可能会储存在您居住国家以外的服务器上。我们将收集的资讯储存在位于中华人民共和国的安全服务器上。”

杰森对DeepSeek收集信息的安全性也有所顾虑。用户协议只是DeepSeek在台面上能公开的部分，如果它背地里偷用户的信息，也是一件可怕的事情。

杰森说：“它身在中国，身不由己。如果中共觉得它还小，看不上它，还好点。如果中共开始要求它做点事，那真的是非常难说。”。

若有很多重要的人物都用DeepSeek的时候，杰森认为，中共更不会放过对DeepSeek的施压与威逼，因为中共有《反间谍法》《国家情报法》之类的堂而皇之的“理由”对信息进行监控。◇

责任编辑：孙芸#