사용자 안전에 대한 우리의 접근 방식

사용자 안전은 신뢰할 수 있고 해석 가능하며 조종 가능한 AI 시스템을 만들려는 Anthropic의 미션의 핵심입니다. Claude와 상호작용하는 새로운 방식을 출시함에 따라, 허위 정보 생성, 불쾌한 콘텐츠, 혐오 발언 또는 기타 오용을 통해 새로운 유형의 잠재적 해악이 나타날 것으로 예상됩니다. 우리는 기존의 모델 안전 노력을 보완하기 위한 추가 안전 기능에 적극적으로 투자하고 실험하고 있으며, 광범위한 사용자에게 유용한 도구를 제공하면서 동시에 해악을 완화하기 위해 최선을 다하고 있습니다. 오픈 베타로 새로운 제품을 출시하면 실험하고, 반복하고, 여러분의 피드백을 들을 수 있습니다. 다음은 우리가 도입한 안전 기능 중 일부입니다:

우리의 사용 정책을 기반으로 잠재적으로 해로운 콘텐츠를 표시하는 탐지 모델입니다.
프롬프트에 대한 안전 필터로, 우리의 탐지 모델이 콘텐츠를 해로운 것으로 표시할 때 모델의 응답을 차단할 수 있습니다.
강화된 안전 필터로, 탐지 모델의 민감도를 높일 수 있습니다. 우리는 정책을 반복적으로 위반하는 사용자에게 일시적으로 강화된 안전 필터를 적용할 수 있으며, 위반이 없거나 적은 기간이 지난 후 이러한 제어를 제거합니다.

이러한 기능은 완벽하지 않으며, 거짓 양성 또는 거짓 음성을 통해 실수할 수 있습니다. 이러한 조치에 대한 여러분의 피드백과 우리가 사용자에게 이를 설명하는 방식은 이러한 안전 시스템을 개선하는 데 중요한 역할을 할 것이며, [email protected]으로 연락하여 피드백을 주시기를 권장합니다. 자세히 알아보려면 AI 안전에 대한 우리의 핵심 견해를 읽어보세요.