Unser Ansatz zur Nutzersicherheit

Die Sicherheit der Nutzer ist ein zentraler Bestandteil der Mission von Anthropic, zuverlässige, interpretierbare und steuerbare KI-Systeme zu entwickeln. Mit der Einführung neuer Möglichkeiten für Menschen, mit Claude zu interagieren, erwarten wir auch, dass neue Arten potenzieller Schäden auftreten, sei es durch die Generierung von Fehlinformationen, anstößigen Inhalten, Hassreden oder anderen Missbrauchsformen. Wir investieren aktiv in zusätzliche Sicherheitsfunktionen und experimentieren damit, um unsere bestehenden Bemühungen zur Modellsicherheit zu ergänzen, und arbeiten daran, hilfreiche Tools einem breiten Publikum zur Verfügung zu stellen und gleichzeitig unser Bestes zu tun, um Schäden zu minimieren. Die Einführung neuer Produkte in einer offenen Beta ermöglicht es uns, zu experimentieren, zu iterieren und Ihr Feedback zu hören. Hier sind einige der Sicherheitsfunktionen, die wir eingeführt haben:

Erkennungsmodelle, die potenziell schädliche Inhalte basierend auf unserer Nutzungsrichtlinie kennzeichnen.
Sicherheitsfilter für Eingabeaufforderungen, die Antworten des Modells blockieren können, wenn unsere Erkennungsmodelle Inhalte als schädlich kennzeichnen.
Erweiterte Sicherheitsfilter, die es uns ermöglichen, die Empfindlichkeit unserer Erkennungsmodelle zu erhöhen. Wir können vorübergehend erweiterte Sicherheitsfilter auf Nutzer anwenden, die wiederholt gegen unsere Richtlinien verstoßen, und diese Kontrollen nach einer Zeit ohne oder mit wenigen Verstößen wieder entfernen.

Diese Funktionen sind nicht ausfallsicher, und wir können Fehler durch falsch positive oder falsch negative Ergebnisse machen. Ihr Feedback zu diesen Maßnahmen und wie wir sie den Nutzern erklären, wird eine Schlüsselrolle dabei spielen, uns bei der Verbesserung dieser Sicherheitssysteme zu helfen, und wir ermutigen Sie, sich mit jedem Feedback, das Sie haben mögen, an uns unter [email protected] zu wenden. Um mehr zu erfahren, lesen Sie über unsere grundlegenden Ansichten zur KI-Sicherheit.

Verwandte Artikel

Ich plane, ein Produkt unter Verwendung der Claude API zu starten. Welche Schritte sollte ich unternehmen, um sicherzustellen, dass ich nicht gegen die Nutzungsrichtlinien von Anthropic verstoße?

Ich möchte sensible Daten in meine Chats mit Claude eingeben. Wer kann meine Unterhaltungen einsehen?

API-Schutzmaßnahmen-Tools

Verantwortungsvoller Einsatz der Modelle von Anthropic: Richtlinien für Organisationen, die Minderjährige betreuen

Ein Problem melden: Einhaltung des australischen DIS-Standards