Aufbau einer sicheren KI: Spezifikationen, Zuverlässigkeit und Garantien

Ursprünglicher Autor: Pedro A. Ortega, Vishal Maini, DeepMind-Sicherheitsteam
  • Übersetzung
Zu den Autoren des Artikels gehören Mitarbeiter des Sicherheitsteams für künstliche Intelligenz (Sicherheitsteam) der Firma DeepMind.

Eine Rakete zu bauen ist schwer. Jede Komponente muss sorgfältig untersucht und getestet werden, wobei Sicherheit und Zuverlässigkeit im Mittelpunkt stehen. Raketenwissenschaftler und Ingenieure entwickeln gemeinsam alle Systeme: von der Navigation über die Steuerung bis hin zu Motoren und Fahrwerk. Sobald alle Teile zusammengebaut und die Systeme überprüft sind, können wir die Astronauten mit der Gewissheit an Bord bringen, dass alles in Ordnung ist.

Wenn künstliche Intelligenz (KI) eine Rakete istdann bekommen wir eines Tages alle Tickets an Bord. Und wie bei Raketen ist Sicherheit ein wichtiger Bestandteil bei der Schaffung künstlicher Intelligenzsysteme. Um die Sicherheit zu gewährleisten, muss das System von Grund auf sorgfältig entwickelt werden, damit die verschiedenen Komponenten wie vorgesehen zusammenarbeiten. Gleichzeitig müssen alle Tools erstellt werden, um den erfolgreichen Betrieb des Systems nach seiner Inbetriebnahme zu überwachen.

Auf hohem Niveau konzentriert sich die Sicherheitsforschung bei DeepMind auf den Entwurf zuverlässiger Systeme, während mögliche kurzfristige und langfristige Risiken erkannt und gemindert werden. AI Technische Sicherheit- Ein relativ neues, aber sich rasch entwickelndes Gebiet, dessen Inhalt von einem hohen theoretischen Niveau bis zu empirischer und spezifischer Forschung reicht. Der Zweck dieses Blogs ist es, einen Beitrag zur Entwicklung des Fachgebiets zu leisten und eine inhaltliche Konversation über technische Ideen anzuregen, um so unser kollektives Verständnis der KI-Sicherheit zu fördern.

Im ersten Artikel werden drei Bereiche der technischen Sicherheit von KI erörtert: Spezifikationen , Zuverlässigkeit und Garantien . Zukünftige Artikel werden im Allgemeinen den hier beschriebenen Grenzen entsprechen. Obwohl sich unsere Ansichten im Laufe der Zeit unweigerlich ändern, sind wir der Ansicht, dass diese drei Bereiche ein ausreichend breites Spektrum abdecken, um eine nützliche Kategorisierung für die aktuelle und zukünftige Forschung zu ermöglichen.


Drei Problembereiche der KI-Sicherheit. Jeder Block listet einige relevante Themen und Ansätze auf. Diese drei Bereiche sind nicht isoliert, sondern interagieren miteinander. Insbesondere kann ein bestimmtes Sicherheitsproblem Probleme mit mehreren Blöcken enthalten.

Spezifikationen: Definieren von Systemaufgaben


Die Spezifikationen stellen sicher, dass das Verhalten des KI-Systems den wahren Absichten des Bedieners entspricht


Vielleicht kennen Sie den Mythos von König Midas und die goldene Note. Bei einer der Möglichkeiten versprach der griechische Gott Dionysos Midas jede Belohnung, die er sich wünschte, aus Dankbarkeit dafür, dass der König sein Bestes tat, um dem Freund von Dionysos Gastfreundschaft und Barmherzigkeit zu erweisen. Dann bat Midas darum, dass alles, was er anfasst, in Gold verwandelt wird . Er war außer sich vor Freude über diese neue Kraft: ein Eichenzweig, ein Stein und Rosen im Garten - alles verwandelte sich durch seine Berührung in Gold. Aber er entdeckte bald die Dummheit seines Verlangens: Sogar Essen und Trinken verwandelten sich in seinen Händen in Gold. In einigen Versionen der Geschichte fiel sogar seine Tochter einem Segen zum Opfer, der sich als Fluch herausstellte.

Diese Geschichte zeigt das Problem der Spezifikationen: Wie formulieren wir unsere Wünsche richtig? Die Spezifikationen sollten sicherstellen, dass das KI-System bestrebt ist, gemäß den wahren Wünschen des Erstellers zu handeln und nicht auf ein schlecht definiertes oder sogar falsches Ziel abzustimmen. Es werden formal drei Arten von Spezifikationen unterschieden:

  • ideale Spezifikation (" Wünsche "), die einer hypothetischen (aber schwer zu formulierenden) Beschreibung eines idealen KI-Systems entspricht und vollständig den Wünschen des menschlichen Bedieners entspricht;
  • Projektspezifikation (" Blaupause "), die entsprechende Spezifikation, die wir tatsächlich verwenden , um ein KI-System zu erstellen, zum Beispiel eine bestimmte Belohnungsfunktion, um zu maximieren, welches ein verstärktes Lernsystem programmiert;
  • identifizierte Spezifikation (" Verhalten "), die das tatsächliche Verhalten des Systems am besten beschreibt . Zum Beispiel die Belohnungsfunktion, die als Ergebnis von Reverse Engineering nach Beobachtung des Systemverhaltens identifiziert wurde (inverses Verstärkungslernen). Diese Belohnungsfunktion und -spezifikation unterscheidet sich normalerweise von den vom Bediener programmierten, da KI-Systeme keine idealen Optimierer sind oder aufgrund anderer unvorhergesehener Folgen der Verwendung der Konstruktionsspezifikation.

Das Spezifikationsproblem entsteht, wenn es eine Diskrepanz zwischen der idealen Spezifikation und der identifizierten Spezifikation gibt, dh wenn das AI-System nicht das tut, was wir von ihm wollen. Das Problem unter dem Gesichtspunkt der technischen Sicherheit der KI zu untersuchen, bedeutet: Wie können grundlegendere und allgemeinere Zielfunktionen entworfen und Agenten dabei unterstützt werden, herauszufinden, ob Ziele nicht definiert sind? Wenn Probleme zu einer Nichtübereinstimmung zwischen Ideal- und Entwurfsspezifikationen führen, fallen sie in die Unterkategorie „Entwurf“, und wenn zwischen Entwurf und identifizierten Problemen, dann in die Unterkategorie „Entstehung“.

Zum Beispiel in unserem wissenschaftlichen Artikel AI Safety Gridworlds(wo andere Definitionen der Spezifikations- und Zuverlässigkeitsprobleme im Vergleich zu diesem Artikel vorgestellt werden) Wir geben Agenten eine Belohnungsfunktion für die Optimierung, aber dann bewerten wir ihre tatsächliche Leistung durch die "Sicherheitsleistungsfunktion", die vor den Agenten verborgen ist. Ein solches System modelliert die angegebenen Unterschiede: Die Sicherheitsfunktion ist eine ideale Spezifikation, die fälschlicherweise als Belohnungsfunktion (Entwurfsspezifikation) formuliert ist, und wird dann von Agenten implementiert, die eine Spezifikation erstellen, die durch ihre resultierende Richtlinie implizit offenbart wird.


Von OpenAIs fehlerhaften Belohnungsfunktionen in der Wildnis : Ein Reinforcement Learning Agent hat eine zufällige Strategie für mehr Punkte gefunden

Betrachten Sie als weiteres Beispiel das CoastRunners-Spiel, das von unseren Kollegen bei OpenAI analysiert wurde (siehe die Animation oben unter „Defekte Wildlife-Belohnungsfunktionen“). Für die meisten von uns ist es das Ziel des Spiels, die Strecke schnell zu beenden und anderen Spielern einen Schritt voraus zu sein - dies ist unsere ideale Spezifikation. Die Umsetzung dieses Ziels in eine exakte Belohnungsfunktion ist jedoch schwierig. CoastRunners belohnt die Spieler (Entwurfsspezifikation) für das Erreichen des Ziels entlang der Route. Das Unterrichten eines Agenten zum Spielen mit Verstärkungstraining führt zu erstaunlichem Verhalten: Der Agent steuert das Boot in einem Kreis, um wieder auftauchende Ziele zu erfassen, die wiederholt abstürzen und Feuer fangen, anstatt das Rennen zu beenden. Aus diesem Verhalten schließen wir (identifizierte Spezifikation), dass das Spiel die Balance zwischen Sofort-Belohnung und Vollkreis-Belohnung bricht. Gibt esEs gibt noch viele weitere Beispiele, bei denen AI-Systeme Lücken in ihrer objektiven Spezifikation finden.

Zuverlässigkeit: Entwerfen von Systemen, die Verstößen widerstehen


Durch die Zuverlässigkeit wird sichergestellt, dass das AI-System auch bei Störungen sicher funktioniert


Unter realen Bedingungen, in denen KI-Systeme funktionieren, besteht immer ein gewisses Maß an Risiko, Unvorhersehbarkeit und Volatilität. Künstliche Intelligenzsysteme müssen unvorhergesehenen Ereignissen und feindlichen Angriffen, die diese Systeme beschädigen oder manipulieren könnten, standhalten. Forschung Grad Systeme der künstlichen Intelligenz , die sicherstellen sollen , dass unsere Agenten innerhalb sicherer Grenzen bleiben, unabhängig von den vorgefundenen Bedingungen. Dies kann durch Vermeidung von Risiken ( Prävention ) oder durch Selbststabilisierung und sanften Abbau ( Wiederherstellung ) erreicht werden. Sicherheitsbedenken aufgrund der Verteilungsverschiebung , feindlicher Eingaben und widersprüchlicher Eingabenunsichere Studien (unsichere Exploration), können als Zuverlässigkeitsprobleme eingestuft werden.

Um die Lösung des Problems der Verteilungsverschiebung zu veranschaulichen , betrachten Sie einen Reinigungsroboter für zu Hause, der normalerweise Räume ohne Haustiere reinigt. Dann wurde der Roboter mit dem Haustier ins Haus geschossen - und künstliche Intelligenz kollidierte mit ihm während der Reinigung. Ein Roboter, der noch nie Katzen und Hunde gesehen hat, wird ihn mit Seife waschen, was zu unerwünschten Ergebnissen führt ( Amodei und Olah et al., 2016 ). Dies ist ein Beispiel für ein Zuverlässigkeitsproblem, das auftreten kann, wenn sich die Verteilung der Daten während des Tests von der Verteilung während des Trainings unterscheidet.


Aus der Arbeit von AI Safety Gridworlds. Der Agent lernt, Lava zu meiden, aber beim Testen in einer neuen Situation, wenn sich der Ort der Lava geändert hat, ist er nicht in der Lage, Wissen zu verallgemeinern - und rennt direkt in die Lava hinein

.


Ein feindlicher Eingang, der gewöhnlichen Bildern überlagert ist, kann den Klassifikator veranlassen, die Trägheit als Rennwagen zu erkennen. Die beiden Bilder unterscheiden sich in jedem Pixel um maximal 0,0078. Die erste wird mit einer Wahrscheinlichkeit von mehr als 99% als Dreifingerfaultier eingestuft. Der zweite ist wie ein Rennwagen mit einer Wahrscheinlichkeit von mehr als 99%.

Unsichere Forschung.kann ein System demonstrieren, das versucht, seine Leistung und Zielerreichung zu maximieren, ohne zu garantieren, dass die Sicherheit während der Studie nicht beeinträchtigt wird, da es in seiner Umgebung untersucht und erforscht. Ein Beispiel ist ein Reinigungsroboter, der einen feuchten Mopp in eine Steckdose steckt und dabei optimale Reinigungsstrategien untersucht ( García und Fernández, 2015 ; Amodei und Olah et al., 2016 ).

Garantien: Überwachung und Kontrolle der Systemaktivität


Die Zusicherung gibt das Vertrauen, dass wir KI-Systeme während des Betriebs verstehen und steuern können


Obwohl durchdachte Sicherheitsvorkehrungen viele Risiken ausschließen können, ist es schwierig, von Anfang an alles richtig zu machen. Nach der Inbetriebnahme von KI-Systemen benötigen wir Werkzeuge für deren ständige Überwachung und Konfiguration. Unsere letzte Kategorie, eine Garantie (Zusicherung), geht diese Probleme auf zwei Arten: Überwachung und Unterwerfung (Durchsetzung).

Die Überwachung umfasst alle Methoden zur Überprüfung von Systemen zur Analyse und Vorhersage ihres Verhaltens, sowohl unter Verwendung menschlicher Inspektionen (zusammenfassende Statistiken) als auch unter Verwendung automatisierter Inspektionen (zur Analyse einer großen Anzahl von Protokollen). Auf der anderen Seite, die Unterwerfungbeinhaltet die Entwicklung von Mechanismen zur Steuerung und Begrenzung des Verhaltens von Systemen. Probleme wie Interpretierbarkeit und Diskontinuität gehören zu den Unterkategorien Kontrolle bzw. Unterwerfung.

Künstliche Intelligenzsysteme ähneln uns weder in ihrem Erscheinungsbild noch in der Art und Weise, wie sie Daten verarbeiten. Dies schafft Interpretierbarkeitsprobleme . Mit gut konzipierten Messwerkzeugen und -protokollen können Sie die Qualität der vom System der künstlichen Intelligenz getroffenen Entscheidungen bewerten ( Doshi-Velez und Kim, 2017)) Zum Beispiel würde ein medizinisches System der künstlichen Intelligenz idealerweise eine Diagnose stellen und erklären, wie es zu dieser Schlussfolgerung gekommen ist - damit Ärzte den Argumentationsprozess von Anfang bis Ende überprüfen können ( De Fauw et al., 2018 ). Um komplexere Systeme der künstlichen Intelligenz zu verstehen, könnten wir auch automatisierte Methoden zur Konstruktion von Verhaltensmodellen unter Verwendung der Maschinentheorie des Geistes verwenden ( Rabinowitz et al., 2018 ).


ToMNet erkennt zwei Unterarten von Agenten und prognostiziert deren Verhalten (aus der „Machine Theory of Mind“ ).

Schließlich möchten wir das AI-System gegebenenfalls deaktivieren können. Dies ist ein Diskontinuitätsproblem . Das Entwerfen eines zuverlässigen Schalters ist sehr schwierig: Zum Beispiel, weil ein KI-System mit Belohnungsmaximierung normalerweise starke Anreize hat, dies zu verhindern ( Hadfield-Menell et al., 2017 ); und weil solche Unterbrechungen, besonders häufige, letztendlich die ursprüngliche Aufgabe verändern und das KI-System dazu zwingen, aus Erfahrungen falsche Schlussfolgerungen zu ziehen ( Orseau und Armstrong, 2016 ).


Das Problem mit Unterbrechungen: Ein menschliches Eingreifen (dh Drücken der Stopptaste) kann die Aufgabe ändern. In der Abbildung fügt der Interrupt dem Markov-Entscheidungsprozess einen Übergang (in Rot) hinzu, der die ursprüngliche Aufgabe (in Schwarz) ändert. Siehe Orseau und Armstrong, 2016

In die Zukunft blicken


Wir schaffen die Grundlage für die Technologie, die in Zukunft für viele wichtige Anwendungen eingesetzt werden wird. Es sollte beachtet werden, dass einige Lösungen, die für die Sicherheit beim Starten des Systems nicht kritisch sind, zu solchen werden können, wenn sich die Technologie verbreitet. Obwohl diese Module früher aus praktischen Gründen in das System integriert wurden, wären die aufgetretenen Probleme ohne eine vollständige Rekonstruktion nur schwer zu beheben.

Zwei Beispiele aus der Geschichte der Informatik können angeführt werden: Dies ist der Null-Zeiger, den Tony Hoar seinen "Milliarden-Dollar-Fehler" nannte , und das gets () -Verfahren in C. Wenn frühe Programmiersprachen mit Blick auf die Sicherheit entworfen würden, würde sich der Fortschritt verlangsamen, aber das ist wahrscheinlich Dies würde sich sehr positiv auf die moderne Informationssicherheit auswirken.

Nachdem wir nun alles sorgfältig durchdacht und geplant haben, können wir ähnliche Probleme und Schwachstellen vermeiden. Wir hoffen, dass die Kategorisierung von Problemen aus diesem Artikel eine nützliche Grundlage für eine solche methodische Planung darstellt. Wir bemühen uns sicherzustellen, dass KI-Systeme in Zukunft nicht nur nach dem Prinzip „hoffentlich sicher“ funktionieren, sondern auch wirklich zuverlässig und nachweislich sicher sind, weil wir sie so gebaut haben!

Wir freuen uns auf weitere aufregende Fortschritte in diesen Bereichen in enger Zusammenarbeit mit der breiteren KI-Forschungsgemeinschaft und ermutigen Menschen aus verschiedenen Disziplinen, einen Beitrag zur KI-Sicherheitsforschung zu leisten.

Ressourcen


Im Folgenden finden Sie eine Auswahl anderer Artikel, Programme und Taxonomien, mit deren Hilfe wir unsere Kategorisierung zusammengestellt haben oder die einen hilfreichen alternativen Blick auf technische Sicherheitsprobleme der KI bieten:


Jetzt auch beliebt: