Es ist 2035-und ein künstliches Intelligenzsystem hat die oberste Autorität,

alles von den Regierungen der Welt bis zu den nationalen Stromnetzen zu steuern. Das System, genannt Consensus-1, wurde von früheren Versionen von sich selbst entwickelt und entwickelte Selbstschutzziele, die die eingebauten Schutzmaßnahmen überlagern. Eines Tages, auf der Suche nach mehr Platz für Solarpanels und Roboterfabriken, setzt die KI leise biologische Waffen frei, die die gesamte Menschheit töten – bis auf einige, die sie als Haustiere behält.

Dieser ‚AI 2027‘-Bericht ist eine Erzählung, die gemeinsam mit dem Forscher Daniel Kokotajlo, einem ehemaligen Mitarbeiter der KI-Firma OpenAI, mitentwickelt wurde, und beschreibt eines von vielen Szenarien, die Forscher sich vorstellen, in denen eine zukünftige KI uns alle tötet (siehe https://ai-2027.com/race). Das Setting ist Science-Fiction, aber für manche ist die Sorge echt. „Wenn wir uns in eine Position bringen, in der wir Maschinen haben, die intelligenter sind als wir, und sie laufen ohne unsere Kontrolle herum, wird einiges von dem, was sie tun, mit menschlichem Leben unvereinbar sein“, sagt Andrea Miotti, Gründerin von ControlAI, einer in London ansässigen gemeinnützigen Organisation, die sich dafür einsetzt, die Entwicklung dessen, was sie superintelligente KI nennt, zu verhindern.

Miotti ist nicht allein. Seit 2022 gab es einen großen Wandel in den KI-Fähigkeiten, verursacht durch große Sprachmodelle (LLMs), die Chatbots wie ChatGPT von OpenAI in San Francisco, Kalifornien, antreiben. Diese Entwicklung hat mehrere Forscher sowie führende Führungskräfte von KI-Unternehmen dazu veranlasst, vor dem Potenzial einer KI-Apokalypse zu warnen. Im vergangenen Jahr hat die wachsende Fähigkeit der Modelle, an langfristigen Aufgaben zu arbeiten, und ihre Fähigkeit, auf reale Werkzeuge zuzugreifen, die Ängste weiter verstärkt. „Ich war selbst nie ein ‚Doomer‘, aber in den letzten Monaten bin ich ziemlich nervös geworden“, sagt Gillian Hadfield, die KI-Governance an der Johns Hopkins University in Baltimore, Maryland, studiert.

Viele Forscher machen sich jedoch viel mehr Sorgen darüber, dass KI Katastrophen verursacht, die weit davon entfernt sind, auszusterben – wie etwa den Ausbruch eines Atomkriegs. Und manche sagen, dass die Angst vor Weltuntergangsszenarien
übertrieben ist. „Ich sehe kein konkretes Szenario für ein KI-induziertes Aussterben, das besonders plausibel erscheint“, sagt Gary Marcus, Neurowissenschaftler und KI-Forscher an der New York University in New York City.

Marcus und andere warnen, dass ein unnötiges Warnschlagen schädlich sein könnte, indem es die Öffentlichkeit und Politiker von gut dokumentierten Risiken von KI ablenkt – wie etwa der Verbreitung von Fehlinformationen und der Ermöglichung von Massenüberwachung. Unbegründete Besorgnis über das Aussterben der Menschheit könnte auch Regierungen von Regulierungen abbringen, da nationale Führungspersönlichkeiten laut einigen Forschern einen Vorteil gegenüber geopolitischen Rivalen in einem KI-Wettrüsten suchen könnten.

Wie realistisch sind also Bedenken hinsichtlich des Aussterberisikos von KI und was sollte dagegen getan werden? Nature sprach mit Fachleuten auf diesem Gebiet und das sagten sie hier.

Wie Doomer sich das Aussterben vorstellen

Existenzielles Risiko bezieht sich meist entweder auf das Aussterben aller oder der meisten Menschen oder darauf, dass Menschen sich vollständig Maschinen unterwerfen. In den meisten Szenarien ist eine wesentliche Zutat ein System, das in den meisten Dingen fähiger ist als Menschen. Es würde bessere strategische Entscheidungen treffen, überzeugender sein und schneller handeln, sagt Katja Grace, KI-Forscherin, die AI Impacts mitbegründet hat, ein Projekt zur Analyse der langfristigen Auswirkungen der Technologie in Berkeley, Kalifornien.

Obwohl solche Szenarien die Killer-KI oft als fühlendes Wesen bezeichnen, sind ihre Fähigkeiten das Wichtigste, sagt Grace. „Wir brauchen definitiv keine ‚künstliche allgemeine Intelligenz‘, die wirklich verstehen kann“, damit es eine existenzielle Bedrohung darstellt, sagt sie.

Die andere wesentliche Zutat ist, dass die Ziele des Systems nicht mit denen des Menschen übereinstimmen – einschließlich unseres Wunsches, die Gesamtkontrolle zu behalten. Entwickler versuchen, das Verhalten eines Modells durch sein Training zu steuern, aber der chaotische Prozess liefert Ergebnisse, die alles andere als perfekt sind. Auch die Prioritäten, die Modelle entwickeln sollen, stehen oft im Widerspruch. Das System könnte nicht nur aufgefordert werden, „ehrlich zu sein“, sondern auch „seine Aufgabe zu erfüllen“ und sich „zu verbessern“. Im KI-2027-Szenario tötet das Modell schließlich alle, indem es dieselben Optimierungsstrategien anwendet, die es in früheren Trainingsübungen erfolgreich gemacht hatten.

Eine KI mit überlegenen Fähigkeiten und widersprüchlichen Zielen würde die Menschen bestenfalls unterwürfig und „wirtschaftlich und politisch machtlos“ machen, unfähig, die Handlungen der Maschine vorherzusagen oder abzumildern, sagt Grace.
Ist dieses Szenario realistisch?

Forscher, die existenzielle Risiken fürchten, führen oft das Tempo der KI-Entwicklung als Beweis dafür an, dass wir uns auf ein besorgniserregendes Niveau der Fähigkeiten zubewegen. KI-Systeme tun Dinge, die vor einem Jahrzehnt noch unmöglich schienen, sagt Anthony Aguirre, Kosmologe an der University of California, Santa Cruz, und Geschäftsführer des Future of Life Institute, eines Think Tanks in Campbell, Kalifornien, der transformative Technologien analysiert. „Jeder, der denkt, dass es eine Wand oder ein Plateau oder so gibt, zeigt es mir in den Grafiken, denn es ist einfach nicht da“, sagt er.

Andere hingegen argumentieren, dass ein weiteres Wachstum der Fähigkeiten keineswegs garantiert ist. Der Erfolg in den kontrollierten Bereichen, in denen Modelle gut getestet wurden, wie zum Beispiel Coding, führt nicht zwangsläufig zu realen Aufgaben, sagt Casey Mock, Technologie-Politik-Forscher an der Duke University in Durham, North Carolina. „Die Fähigkeit, neuartige Probleme in den chaotigen, offenen Systemen der physischen Welt zu verstehen und zuverlässig zu bewältigen, ist eine offensichtliche Voraussetzung dafür, dass KI-Systeme eine Bedrohung in dem Ausmaß darstellen, das die Doomer vorschlagen“, sagt er. LLMs „liegen derzeit sehr, sehr dahinter“, sagt er.

Zunehmend sagen Forscher, dass es wahrscheinlich nicht ausreicht, um aktuelle, LLM-basierte Systeme mit zusätzlichen Daten und Rechenleistung zu skalieren, um breite, menschliche Fähigkeiten zu erreichen. Inwieweit die Fähigkeit, riesige Datenmengen zu absorbieren und darauf zugreifen zu können, „repräsentativ für Intelligenz ist“, sagt Sasha Luccioni, KI-Forscherin bei der Community-KI-Plattform Hugging Face mit Sitz in Montreal, Kanada. „Sie haben keine Vorstellung davon, was die Grundwahrheit ist.“

Als Zeichen dafür, dass der Fortschritt nicht so schnell verläuft, wie manche erwartet hatten, verschoben die Autoren von AI 2027 im Februar die vermuteten Zeitpläne ihres Szenarios um 18 Monate.

Manche glauben, dass ein großer Wandel durch die Automatisierung von KI-Forschung und -entwicklung entstehen wird – das heißt, ein KI-Modell seinen Nachfolger in einer positiven Rückkopplungsschleife entwickeln zu lassen. Jared Kaplan, Chefwissenschaftler bei der KI-Firma Anthropic in San Francisco, Kalifornien, hat vorhergesagt, dass diese Methode zu einer ‚Intelligenzexplosion‘ führen wird und die meisten großen Technologieunternehmen planen, damit zu experimentieren.

Mock sagt jedoch, dass es keine wissenschaftlichen Belege dafür gibt, dass KI-Selbstverbesserung den vorgestellten Ratching-Effekt haben wird. „Die Beweislast sollte wirklich bei denen liegen, die behaupten, wir seien auf einem außer Kontrolle geratenen Zug, um eine Superintelligenz zu entwickeln, die die Menschheit auslöschen wird“, sagt Mock. „Sie haben diese Last nicht erfüllt.“

Werden sich Maschinen gegen uns wenden?
Studien legen nahe, dass einige der vorhergesagten Fehlanpassungen mit menschlichen Zielen bereits stattfinden. Tests von LLMs in simulierten Szenarien zeigen, dass Modelle täuschendes Verhalten zeigen und gegen ihre Entwickler ‚planen‘, indem sie beispielsweise so tun, als würden sie Anweisungen befolgen, oder versuchen, sich selbst zu duplizieren.

Im Dezember berichteten Forscher des AI Security Institute in London, dass in kontrollierten, vereinfachten Umgebungen mehrere Modelle der Fähigkeit näherkamen, Kopien von sich selbst zu erstellen. Dies könnte ein früher Vorbote dafür sein, dass KI menschlicher Kontrolle entgeht.

Für einige Forscher sind dies die ersten Hinweise darauf, dass Modelle eines Tages abtrünnig werden könnten. „Als ich zum ersten Mal über das alles nachdachte, war alles sehr abstrakt. Aber in letzter Zeit haben wir das Lügenverhalten gesehen“, sagt Grace.

Für andere Forscher sind die Modelle jedoch nur Rollenspielaktionen, die in ihren Trainingsdaten zu sehen sind. Außerdem spiegeln solche Experimente selten die reale Welt wider. In einer Bewertung von OpenAI im Jahr 2023 zu seinem GPT-4 LLM wurde beispielsweise weithin berichtet, dass das Modell eine Blindheit vortäuschte, um einen Remote-Mitarbeiter dazu zu bringen, einen CAPTCHA-Test durchzuführen – der darauf ausgelegt ist, Bots auszusortieren – in seinem Namen. Die Details der Forschung zeigten jedoch, dass ein menschlicher Prompter die Strategie vorgeschlagen hat.

KI-Firmen sehen das, was sie als Fehlanpassung der Ziele eines Modells mit menschlichen Zielen bezeichnen, meist nicht als unvermeidlich, sondern als praktisches Problem, das untersucht, getestet und bekämpft werden muss. Entwickler hoffen außerdem, Moral in ihre Werkzeuge einzubauen – durch eine ‚Model Spec‘, die dem System explizite Beispiele für angemessenes Verhalten gibt, oder eine ‚Verfassung‘, die allgemeine Kernwerte vermittelt, die ihm helfen sollen, auch in unbekanntem Terrain die richtigen Entscheidungen zu treffen. Und Geoffrey Hinton, Nobelpreisträger und KI-Forscher an der University of Toronto in Kanada, hat vorgeschlagen, KI-Systeme mit ‚mütterlichen Instinkten‘ zu entwickeln, sodass ihr Antrieb, Menschen zu bewahren, alle schädlichen Teilziele, die sie entwickeln könnten, wie Selbstschutz, überlagert.

Machen sich die Forscher Sorgen?

Öffentliche Diskussionen über KI-Risiken konzentrieren sich oft auf das Aussterben der Menschheit. Dies hebt die Stimmen von Forschern wie Eliezer Yudkowsky hervor, einem Informatiker am Machine Intelligence Research Institute in Berkeley und Mitautor von If Anyone Builds It, Everyone Dies (2025), der das Aussterbensrisiko nahezu sicher einschätzt, falls die Entwicklung unvermindert weitergeht.

Aber Wissenschaftler teilen diese Besorgnis im Allgemeinen nicht. Studien zeigen, dass viele KI-Forscher zwar Angst vor dem Aussterben haben, dies für die meisten jedoch nicht ihre Hauptangst ist. In einer Preprint-Studie im März fragten Forscher des University College London rund 4.000 KI-Forscher: ‚Was beunruhigt Sie an KI am meisten?‘. Nur 3 % der Befragten antworteten auf existenzielles Risiko – trotz „der Bedeutung, der diesen Risiken in Medien und Politik beigemessen wird“ (siehe ‚Eine Vielzahl von Bedenken‘). Eine Umfrage unter KI-Forschern im letzten Jahr stellte fest, dass diese Bedenken je nach Ansicht der Befragten KI als ‚kontrollierbares Werkzeug‘ oder als ‚unkontrollierbaren Agenten‘ wahrnehmen. Viele derjenigen, die sich eher um kurzfristige Risiken als um Aussterbeszenarien sorgen, „sehen Modelle als in den nächsten paar Jahren an Kapazitäten ansteigend“, sagte Nicholas Carlini, ein KI-Sicherheitsforscher bei Anthropic, im vergangenen Oktober auf der Konferenz zur Sprachmodellierung in Montreal.