Wir erhalten häufig die Frage, wie wir die Sicherheit und den Schutz der Daten gewährleisten, wenn künstliche Intelligenz ins Spiel kommt. Das Interesse an dieser Thematik ist nicht nur erfreulich, sondern auch höchst bedeutsam. In diesem Blog-Beitrag möchte ich dieses Thema genauer unter die Lupe nehmen und einige Datenschutzstrategien erörtern.
Wenn wir Datenschutz in KI-Systemen sicherstellen wollen, müssen wir die jeweiligen Verwendungsweisen der Daten unterscheiden.
Datenschutz muss beim Einsatz von vortrainierten Sprachmodellen in zwei Schlüsselbereichen im Auge behalten werden. Erstens, wenn Entwickler und Anbieter KI-Modelle zum Leben erwecken und Vektoren sowie embeddings erstellen. Wenn sie also Daten zu OpenAI oder anderen Betreibern von Sprachmodellen senden, um sie dort zu verarbeiten. Genauso wie wir Daten zu Google senden, wenn wir klassisch googeln. Zweitens rücken Datenschutzfragen ins Zentrum, wenn Nutzer diese KI-Modelle verwenden. Hier besteht zum Beispiel die unerwünschte Gefahr, dass eine Kundin aus Unachtsamkeit schützenswerte Informationen von sich selber preisgibt, wenn sie einem Chatbot eine Frage stellt.
Hier sind einige Datenschutzstrategien, die in beiden Szenarien nützlich sind:
Dokumente anonymisieren
Bei vielen KI-Anwendungen benötigt man keine schützenswerten Informationen, teilweise will man sie auch gar nicht haben. Sie sind aber möglicherweise trotzdem aus irgendwelchen Gründen vorhanden. In diesen Fällen kann man die schützenswerten Informationen aus den Dokumenten entfernen und die somit anonymisierten Dokumente weiterverarbeiten.
Dokumente pseudonymisieren
Braucht man die schützenswerten Informationen nach der Datenverarbeitung wieder, kann man die Dokumente, die von der künstlichen Intelligenz bearbeitet werden sollen, pseudonymisieren. Bei der Pseudonymisierung werden schützenswerte Inhalte durch nicht sprechende Codes oder Identifikationsnummern ersetzt. Im Gegensatz zur Anonymisierung kann nach der Bearbeitung der Daten der Personenbezug wieder hergestellt werden. Dies, indem man den sicher aufbewahrten Schlüssel, mit dem man die Daten pseudonymisiert hat, verwendet, um die Identifikationsnummern wieder durch die ursprünglichen Daten zu ersetzen.
Lokales (kleineres) Sprachmodell nutzen
Man kann statt grosser Sprachmodelle wie GPT 3 oder GPT4 auch ein kleineres Sprachmodelle nutzen, falls dieses für die jeweilige Aufgabe gute Ergebnisse liefern kann. Es gibt viele Sprachmodelle, die open source und kommerziell nutzbar sind. Kleine Sprachmodelle können aufgrund ihrer Grösse lokal statt in der Cloud betrieben werden. Sensible Daten verlassen somit den eigenen Computer oder das eigene Netzwerk nicht.
Private Cloud eines etablierten Anbieters nutzen
Man kann sich entscheiden, eine private Cloud bei einem etablierten Anbieter zu nutzen. Die Informationen werden besonders sicher aufbewahrt und zudem nicht für das Training neuer Sprachmodelle zugänglich gemacht. In diesem Sinne kann man übrigens auch Bing Chat Enterprise statt ChatGPT nutzen.
Nur tatsächlich schützenswerte Daten schützen
Wir alle sind darauf bedacht, unsere Daten zu schützen, und das ist sicherlich klug. Dennoch sollten wir uns gelegentlich die Frage stellen, welche Daten tatsächlich besonders schützenswert sind. Wer kein Problem damit hat, (einen Teil) seiner Daten mit Microsoft Office Produkten wie Word, Excel oder Outlook zu bearbeiten, kann die gleichen Daten konsequenterweise auch mit GPT- oder anderen Modellen bearbeiten.
Markus Emmenegger erklärt, wie moderne Chatbots auch in kleinen Servern laufen können.
Markus Emmenegger zeigt, wie die semantische Suche funktioniert und wie man sich ein 1500-dimensionales Bild anschauen kann.
Markus Emmenegger erklärt, wie moderne Chatbots auch in kleinen Servern laufen können.
Markus Emmenegger zeigt, wie die semantische Suche funktioniert und wie man sich ein 1500-dimensionales Bild anschauen kann.