中国的一个实验室创建了迄今为止最强大的“开放式”人工智能模型之一。
该模型DeepSeek V3由人工智能公司 DeepSeek 开发,并于周三根据宽松的许可证发布,允许开发人员下载和修改它以用于大多数应用程序,包括商业应用程序。
DeepSeek V3 可以处理一系列基于文本的工作负载和任务,例如编码、翻译以及根据描述性提示撰写文章和电子邮件。
根据 DeepSeek 的内部基准测试,DeepSeek V3 的表现优于可下载的“公开”可用模型和只能通过 API 访问的“封闭”AI 模型。在编程竞赛平台 Codeforces 举办的编码竞赛子集中,DeepSeek 的表现优于其他模型,包括 Meta 的Llama 3.1 405B、OpenAI 的GPT-4o和阿里巴巴的 Qwen 2.5 72B。
DeepSeek V3 在 Aider Polyglot 测试中也击败了竞争对手,该测试旨在衡量模型是否能够成功编写出可集成到现有代码中的新代码。
DeepSeek 声称 DeepSeek V3 是在包含 14.8 万亿个 token 的数据集上进行训练的。在数据科学中,token 用于表示原始数据的位 – 100 万个 token 相当于约 75 万个单词。
庞大的不仅仅是训练集。DeepSeek V3 的规模也十分巨大:6710 亿个参数,在 AI 开发平台 Hugging Face 上则有 6850 亿个参数。(参数是模型用来进行预测或决策的内部变量。)这大约是 Llama 3.1 405B 的 1.6 倍,后者有 4050 亿个参数。
参数数量通常(但并非总是)与技能相关;参数较多的模型往往比参数较少的模型表现更好。但大型模型也需要更强大的硬件才能运行。未优化的 DeepSeek V3 版本需要一组高端 GPU 才能以合理的速度回答问题。
虽然 DeepSeek V3 不是最实用的模型,但它在某些方面是一项成就。DeepSeek 能够在短短两个月内使用 Nvidia H800 GPU 数据中心训练该模型——美国商务部最近禁止中国公司采购这些 GPU。该公司还声称,它只花了 550 万美元来训练 DeepSeek V3,这只是 OpenAI 的 GPT-4 等模型开发成本的一小部分。
缺点是,该模型的政治观点有点……不自然。例如,向 DeepSeek V3 询问天安门广场的问题,它不会回答。
DeepSeek 是一家中国公司,需要接受中国互联网监管机构的评估,以确保其模型的响应“体现社会主义核心价值观”。许多中国人工智能系统拒绝回应可能引起监管机构愤怒的话题,例如有关习近平政权的猜测。
DeepSeek 是一家充满好奇心的组织,该公司于 11 月底推出了DeepSeek-R1,这是对OpenAI 的 o1“推理”模型的回应。该公司得到了 High-Flyer Capital Management 的支持,这是一家使用人工智能来指导其交易决策的中国量化对冲基金。
High-Flyer 建立了自己的服务器集群用于模型训练,据报道,最新的集群之一 拥有 10,000 个 Nvidia A100 GPU,耗资 10 亿日元(约合 1.38 亿美元)。High-Flyer 由计算机科学毕业生梁文峰创立,旨在通过其 DeepSeek 组织实现“超级智能”AI。
在今年早些时候的一次采访中,文峰将 OpenAI 等闭源 AI 描述为“暂时的”护城河。“[它]并没有阻止其他人迎头赶上,”他指出。
的确。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepseek-de-xin-ai-mo-xing-si-hu-shi-qi-jin-wei-zhi-zui-hao