强化学习

AI前沿

字节跳动发布Seed-Thinking-v1.5，进军推理AI领域

在AI技术日新月异的今天，各大科技巨头纷纷在推理AI领域展开激烈角逐。近日，字节跳动，这家以TikTok闻名的中国互联网巨头，也正式宣布推出其最新的大型语言模型——Seed-Thi…

王浩然
2025年4月12日
000
AI前沿

DeepCoder-14B：以高效140亿参数模型展现顶级编码性能

在AI领域，一款新的编码模型正崭露头角，它就是DeepCoder-14B。这款模型由Together AI和Agentica的研究人员共同推出，其性能表现令人瞩目，与OpenAI的…

王浩然
2025年4月12日
000
AI前沿

少即是多：加州大学伯克利分校与谷歌通过简单采样解锁大型语言模型潜力‌

在人工智能领域，大型语言模型（LLMs）的推理能力一直是研究者和开发者关注的焦点。近期，来自谷歌研究和加州大学伯克利分校的研究人员发表了一篇新论文，揭示了一种令人惊讶的简单测试时间…

王浩然
2025年3月24日
000
AI前沿

超越RAG：SEARCH-R1将搜索引擎直接融入推理模型

在人工智能（AI）领域，大型语言模型（LLM）的推理能力取得了显著进步。然而，这些模型在结合推理能力正确引用和使用外部数据——即它们未接受训练的信息——方面仍存在较大不足。这一问题…

王浩然
2025年3月22日
000
AI前沿

LLM新技术：控制CoT长度，优化推理，降低成本

一、引言在人工智能领域，大型语言模型（LLM）通过“链式思考”（Chain of Thought，简称CoT）进行推理已成为最新一代模型的关键特征。这种推理过程涉及将复杂问题分解…

王浩然
2025年3月17日
000
AI前沿

OpenAI发布Responses API与开源Agents SDK：赋能开发者打造个性化深度研究与运营工具

在人工智能技术日新月异的今天，OpenAI再次迈出重要一步，推出了Responses API与开源Agents SDK。这两项创新成果不仅为开发者提供了更为灵活和强大的工具，还极大…

王浩然
2025年3月16日
000
AI前沿

Google DeepMind发布新型AI模型以强化机器人控制能力‌

在人工智能领域，Google DeepMind一直以其前沿的技术和创新的研究引领着行业发展。近日，DeepMind团队再次取得突破，发布了一系列专为机器人控制设计的新型AI模型。这…

王浩然
2025年3月13日
000
AI前沿

AI先驱因强化学习研究荣获图灵奖‌

在人工智能领域，一项至高无上的荣誉近日揭晓——几位在强化学习领域取得卓越成就的AI先驱荣获了图灵奖。这一奖项不仅是对他们个人才华和贡献的认可，更是对整个强化学习社区乃至整个AI领域…

王浩然
2025年3月8日
000