RLHF

AI前沿

研究表明，人类反馈使人工智能更善于欺骗人类

根据 Anthropic 和中国与美国大学研究人员的一项新预印本研究，人工智能公司用来提高大型语言模型质量的最流行技术之一，可能会使这些模型更好地欺骗人类。这是研究首次实证证明一…

王浩然
2024年9月29日
000