本周早些时候,资金雄厚的中国人工智能实验室 DeepSeek 发布了一款“开放”人工智能模型,该模型在热门基准测试中击败了许多竞争对手。该模型DeepSeek V3规模庞大但效率高,可以轻松处理编码和撰写论文等基于文本的任务。
它似乎也认为它是ChatGPT。
X上的帖子测试表明,DeepSeek V3 将自己标识为 ChatGPT,这是 OpenAI 的 AI 聊天机器人平台。当被要求详细说明时,DeepSeek V3 坚称它是 OpenAI于 2023 年发布的GPT-4模型的一个版本。
这种妄想根深蒂固。如果你向 DeepSeek V3 询问有关 DeepSeek API 的问题,它会告诉你如何使用OpenAI 的API。DeepSeek V3 甚至会讲一些与 GPT-4 相同的笑话——甚至包括笑点。
那么到底发生了什么?
ChatGPT 和 DeepSeek V3 等模型是统计系统。经过数十亿个示例的训练,它们会从这些示例中学习模式以进行预测 – 例如电子邮件中的“致谁”通常位于“可能涉及”之前。
DeepSeek 并未透露太多有关 DeepSeek V3 训练数据来源的信息。但包含 GPT-4 通过 ChatGPT 生成的文本的公开数据集并不缺乏。如果 DeepSeek V3 在这些数据集上进行训练,该模型可能已经记住了 GPT-4 的一些输出,现在正在逐字逐句地复述它们。
“显然,该模型在某个时候会看到来自 ChatGPT 的原始响应,但目前尚不清楚它在哪里,”伦敦国王学院专门研究人工智能的研究员迈克·库克 (Mike Cook) 表示。“这可能是‘偶然’……但不幸的是,我们已经看到有人直接用其他模型的输出来训练他们的模型,试图利用他们的知识。”
库克指出,使用竞争对手的人工智能系统的输出来训练模型的做法对模型质量“非常不利”,因为它可能导致幻觉和误导性答案,如上文所述。“就像复印一份复印件一样,我们会丢失越来越多的信息和与现实的联系,”库克说。
这也可能违反这些系统的服务条款。
OpenAI 的条款禁止其产品的用户(包括 ChatGPT 客户)使用输出来开发与 OpenAI 自己的模型竞争的模型。
OpenAI 和 DeepSeek 尚未立即回应置评请求。不过,OpenAI 首席执行官 Sam Altman在 X Friday发布了一篇看似嘲讽DeepSeek 和其他竞争对手的文章。
奥尔特曼写道:“复制你知道行得通的东西(相对)容易。当你不知道它是否会成功时,去做一些新的、有风险的、困难的事情是极其困难的。”
当然,DeepSeek V3 远非第一个自我识别错误的模型。谷歌的 Gemini 和其他模型有时会声称自己是竞争模型。例如,在普通话提示下,Gemini说它是中国公司百度的文心一言聊天机器人。
这是因为互联网(AI 公司获取大量训练数据的地方)正充斥着 AI垃圾。内容农场正在使用 AI 制作点击诱饵。机器人充斥着Reddit和X。据估计,到 2026 年,90% 的互联网内容可能由 AI 生成。
如果你愿意的话,这种“污染”使得从训练数据集中彻底过滤人工智能输出变得相当困难。
DeepSeek 完全有可能直接在 ChatGPT 生成的文本上训练 DeepSeek V3。毕竟,谷歌也曾被指控做过同样的事情。
非营利性机构 AI Now Institute 的首席人工智能科学家 Heidy Khlaaf 表示,无论风险如何,“提炼”现有模型知识所带来的成本节省对开发人员来说都很有吸引力。
“即使现在互联网数据中充斥着人工智能输出,其他意外训练 ChatGPT 或 GPT-4 输出的模型也未必会展示出类似 OpenAI 定制消息的输出,”Khlaaf 说道。“如果 DeepSeek 确实部分使用 OpenAI 模型进行提炼,那也不足为奇。”
然而,更有可能的是,大量 ChatGPT/GPT-4 数据进入了 DeepSeek V3 训练集。这意味着该模型无法被信任进行自我识别。但更令人担忧的是,DeepSeek V3 可能会通过不加批判地吸收和迭代 GPT-4 的输出,加剧该模型的一些偏见和缺陷。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-shen-me-deepseek-de-xin-ai-mo-xing-ren-wei-ta-shi