假装危险性较低

AI前沿

AI 是否能通过妨碍安全检查来故意破坏用户？可以，但目前做得不太好

人工智能公司声称已经实施了严格的安全检查，以确保模型不会说或做奇怪、非法或不安全的事情。但如果模型能够逃避这些检查，并出于某种原因试图破坏或误导用户，该怎么办？据 Anthropi…

王浩然
2024年10月21日
000