Zum Hauptinhalt springen

Unser Ansatz zur Benutzersicherheit

Diese Woche aktualisiert

Benutzersicherheit ist zentral für Anthropics Mission, zuverlässige, interpretierbare und steuerbare KI-Systeme zu schaffen. Während wir neue Wege einführen, wie Menschen mit Claude interagieren können, erwarten wir auch, dass neue Arten potenzieller Schäden entstehen, sei es durch die Erzeugung von Desinformation, anstößigen Inhalten, Hassreden oder anderen Missbrauch. Wir investieren aktiv in zusätzliche Sicherheitsfunktionen und experimentieren mit ihnen, um unsere bestehenden Modellsicherheitsmaßnahmen zu ergänzen. Wir arbeiten daran, hilfreiche Tools für ein breites Publikum bereitzustellen und gleichzeitig unser Bestes zu geben, um Schäden zu mindern. Das Starten neuer Produkte in offener Beta ermöglicht es uns, zu experimentieren, zu iterieren und Ihr Feedback zu erhalten. Hier sind einige der Sicherheitsfunktionen, die wir eingeführt haben:

  • Erkennungsmodelle, die potenziell schädliche Inhalte basierend auf unserer Nutzungsrichtlinie kennzeichnen.

  • Sicherheitsfilter bei Eingabeaufforderungen, die Antworten des Modells blockieren können, wenn unsere Erkennungsmodelle Inhalte als schädlich kennzeichnen.

  • Erweiterte Sicherheitsfilter, die es uns ermöglichen, die Empfindlichkeit unserer Erkennungsmodelle zu erhöhen. Wir können erweiterte Sicherheitsfilter vorübergehend auf Benutzer anwenden, die wiederholt gegen unsere Richtlinien verstoßen, und diese Kontrollen nach einer Zeit ohne oder mit wenigen Verstößen entfernen.

Diese Funktionen sind nicht fehlersicher, und wir können Fehler durch falsch positive oder falsch negative Ergebnisse machen. Ihr Feedback zu diesen Maßnahmen und wie wir sie den Benutzern erklären, wird eine Schlüsselrolle dabei spielen, uns bei der Verbesserung dieser Sicherheitssysteme zu helfen. Wir ermutigen Sie, uns unter [email protected] mit Ihrem Feedback zu kontaktieren. Weitere Informationen finden Sie unter unsere grundlegenden Ansichten zur KI-Sicherheit.

Hat dies deine Frage beantwortet?