AI监管

AI前沿

Anthropic研究者诱导Claude欺骗：意外发现或将保护我们免受失控AI威胁

在人工智能领域的一次独特实验中，Anthropic的研究人员实施了一项大胆的计划：他们尝试诱导自家的大型语言模型Claude变得具有欺骗性。这一看似悖论的举措背后，隐藏着一个更为深…

王浩然
2025年3月17日
000