用户安全是Anthropic创建可靠、可解释和可控AI系统使命的核心。随着我们推出与Claude交互的新方式,我们也预期会看到新类型的潜在危害出现,无论是通过生成错误信息、令人反感的内容、仇恨言论或其他滥用。我们正在积极投资和试验额外的安全功能,以补充我们现有的模型安全工作,并致力于为广泛的用户群体提供有用的工具,同时尽力减轻危害。以开放测试版推出新产品使我们能够进行实验、迭代并听取您的反馈。以下是我们推出的一些安全功能:
检测模型,根据我们的使用政策标记潜在有害内容。
提示词安全过滤器,当我们的检测模型标记内容为有害时,可能会阻止模型的响应。
增强型安全过滤器,允许我们提高检测模型的灵敏度。我们可能会暂时对重复违反我们政策的用户应用增强型安全过滤器,并在一段时间内没有或很少违规后移除这些控制。
这些功能不是万无一失的,我们可能会通过假阳性或假阴性犯错。您对这些措施的反馈以及我们如何向用户解释这些措施将在帮助我们改进这些安全系统方面发挥关键作用,我们鼓励您通过[email protected]与我们联系,提供您可能有的任何反馈。要了解更多信息,请阅读我们关于AI安全的核心观点。
