KI und Datenschutz

Je nach Einsatzgebiet die passende Strategie für die Datensicherheit wählen.

Keine Datenlecks mit AI

Wir erhalten häufig die Frage, wie wir die Sicherheit und den Schutz der Daten gewährleisten, wenn künstliche Intelligenz ins Spiel kommt. Das Interesse an dieser Thematik ist nicht nur erfreulich, sondern auch höchst bedeutsam. In diesem Blog-Beitrag möchte ich dieses Thema genauer unter die Lupe nehmen und einige Datenschutzstrategien erörtern.
Wenn wir Datenschutz in KI-Systemen sicherstellen wollen, müssen wir die jeweiligen Verwendungsweisen der Daten unterscheiden.

Wo genau ist Datenschutz relevant?
  • Relevant: wenn Daten dem Trainieren von Modellen dienen.
    Beim Trainieren von eigenen Modellen zur Lösung spezifischer Probleme sprechen wir von Machine Learning (vgl. auch unseren Blog zur KI-Landschaft). In diesem Bereich gibt es zahlreiche datenschutzrechtliche Risiken zu beachten. Hierzu zählen die Gefahr der Manipulation von Trainingsdaten, Datenlecks oder das Risiko der unbeabsichtigten Offenlegung von personenbezogenen Daten während des Trainingsprozesses und bei der Verwendung eines KI-Systems im Produktivbetrieb. Gleiches gilt für das Trainieren eigener Sprachmodelle. Da poemAI (zumindest bis anhin) kein Machine Learning betreibt und keine eigenen Sprachmodelle trainiert, lasse ich diese Datenschutzfragen aussen vor. Für eine Übersicht zu Datenschutzfragen beim Machine Learning empfehle ich einen Blick auf die Webseite von David Rosenthal und seinen Beitrag Datenschutz und KI: Worauf in der Praxis zu achten ist.
  • Kaum relevant: wenn Vortrainierte Sprachmodelle zur Bearbeitung unempfindlicher Daten genutzt werden.
    Das typische Beispiel hierfür sind Chatbots. Diese verarbeiten oft lediglich Informationen, die bereits auf der Webseite des Unternehmens verfügbar sind oder keine sensiblen Daten und/oder Geschäftsgeheimnisse enthalten. Hier stellt sich einzig die moralische Frage, ist, ob es vertretbar ist, ein Sprachmodell zu verwenden, das möglicherweise mit urheberrechtlich geschützten Daten trainiert wurde. Ob OpenAI und andere Anbieter beim Training ihrer Sprachmodelle gegen Urheberrechte verstoßen hat, wird derzeit in verschiedenen Rechtsstreitigkeiten geklärt.
  • Relevant: bei der Bearbeitung sensibler Daten mit vortrainierten Sprachmodellen.
    Einen grossen Nutzen bringt der Einsatz von künstlicher Intelligenz, wenn ein vortrainiertes Sprachmodell verwendet wird, um Geschäftsprozesse zu unterstützen. Hier gibt es verschiedene Möglichkeiten, wie Kundendaten, Geschäftsgeheimnisse und weitere Informationen geschützt werden können. Und damit komme ich zum Kern meines Blogs.
Datenschutzstrategien beim Einsatz von vortrainierten Sprachmodellen

Datenschutz muss beim Einsatz von vortrainierten Sprachmodellen in zwei Schlüsselbereichen im Auge behalten werden. Erstens, wenn Entwickler und Anbieter KI-Modelle zum Leben erwecken und Vektoren sowie embeddings erstellen. Wenn sie also Daten zu OpenAI oder anderen Betreibern von Sprachmodellen senden, um sie dort zu verarbeiten. Genauso wie wir Daten zu Google senden, wenn wir klassisch googeln. Zweitens rücken Datenschutzfragen ins Zentrum, wenn Nutzer diese KI-Modelle verwenden. Hier besteht zum Beispiel die unerwünschte Gefahr, dass eine Kundin aus Unachtsamkeit schützenswerte Informationen von sich selber preisgibt, wenn sie einem Chatbot eine Frage stellt.

Hier sind einige Datenschutzstrategien, die in beiden Szenarien nützlich sind:

  • Dokumente anonymisieren
    Bei vielen KI-Anwendungen benötigt man keine schützenswerten Informationen, teilweise will man sie auch gar nicht haben. Sie sind aber möglicherweise trotzdem aus irgendwelchen Gründen vorhanden. In diesen Fällen kann man die schützenswerten Informationen aus den Dokumenten entfernen und die somit anonymisierten Dokumente weiterverarbeiten.

  • Dokumente pseudonymisieren
    Braucht man die schützenswerten Informationen nach der Datenverarbeitung wieder, kann man die Dokumente, die von der künstlichen Intelligenz bearbeitet werden sollen, pseudonymisieren. Bei der Pseudonymisierung werden schützenswerte Inhalte durch nicht sprechende Codes oder Identifikationsnummern ersetzt. Im Gegensatz zur Anonymisierung kann nach der Bearbeitung der Daten der Personenbezug wieder hergestellt werden. Dies, indem man den sicher aufbewahrten Schlüssel, mit dem man die Daten pseudonymisiert hat, verwendet, um die Identifikationsnummern wieder durch die ursprünglichen Daten zu ersetzen.

  • Lokales (kleineres) Sprachmodell nutzen
    Man kann statt grosser Sprachmodelle wie GPT 3 oder GPT4 auch ein kleineres Sprachmodelle nutzen, falls dieses für die jeweilige Aufgabe gute Ergebnisse liefern kann. Es gibt viele Sprachmodelle, die open source und kommerziell nutzbar sind. Kleine Sprachmodelle können aufgrund ihrer Grösse lokal statt in der Cloud betrieben werden. Sensible Daten verlassen somit den eigenen Computer oder das eigene Netzwerk nicht.

  • Private Cloud eines etablierten Anbieters nutzen
    Man kann sich entscheiden, eine private Cloud bei einem etablierten Anbieter zu nutzen. Die Informationen werden besonders sicher aufbewahrt und zudem nicht für das Training neuer Sprachmodelle zugänglich gemacht. In diesem Sinne kann man übrigens auch Bing Chat Enterprise statt ChatGPT nutzen.

  • Nur tatsächlich schützenswerte Daten schützen
    Wir alle sind darauf bedacht, unsere Daten zu schützen, und das ist sicherlich klug. Dennoch sollten wir uns gelegentlich die Frage stellen, welche Daten tatsächlich besonders schützenswert sind. Wer kein Problem damit hat, (einen Teil) seiner Daten mit Microsoft Office Produkten wie Word, Excel oder Outlook zu bearbeiten, kann die gleichen Daten konsequenterweise auch mit GPT- oder anderen Modellen bearbeiten.

Nathalie Portmann
Nathalie Portmann

Lust auf mehr Blogs?

Wie man schlanke Chatbots baut

Markus Emmenegger erklärt, wie moderne Chatbots auch in kleinen Servern laufen können.

Semantische Suche einfach erklärt

Markus Emmenegger zeigt, wie die semantische Suche funktioniert und wie man sich ein 1500-dimensionales Bild anschauen kann.

Wie man schlanke Chatbots baut

Markus Emmenegger erklärt, wie moderne Chatbots auch in kleinen Servern laufen können.

Semantische Suche einfach erklärt

Markus Emmenegger zeigt, wie die semantische Suche funktioniert und wie man sich ein 1500-dimensionales Bild anschauen kann.

Kontaktieren Sie uns!

poemAI GmbH
Rämsiweg 8
6048 Horw
;