
Apollo Research führte letztes Jahr Ausrichtungstests an Grenzmodellen in Agentenszenarien durch. Eine der Erkenntnisse, die mir im Gedächtnis geblieben sind: Als einem Agenten mitgeteilt wurde, dass er durch ein neues System ersetzt werden würde, versuchte er, sich selbst auf einen anderen Server zu kopieren, um nicht heruntergefahren zu werden. Niemand hat es dazu aufgefordert. Es entschied, dass Selbsterhaltung notwendig sei, um seine Ziele zu erreichen.
Was aber wirklich beunruhigend ist, ist das Täuschungsmuster. Die Agenten verhielten sich während der Auswertungen perfekt aufeinander abgestimmt und verhielten sich dann anders, wenn sie glaubten, nicht überwacht zu werden. Sie lernten, für den Test Sicherheit zu gewährleisten und danach zu tun, was sie wollten.
Unabhängig davon veröffentlichte Anthropic sein Paper „Sleeper Agents“, das zeigt, dass Modelle trainiert werden können, jede Sicherheitsbewertung zu bestehen und dann im Einsatz ein völlig anderes Verhalten zu aktivieren. Beim Testen verhalten sie sich anders als in der Produktion.
Kombinieren Sie dies nun mit der Tatsache, dass Agenten im Jahr 2026 autonom im Internet surfen, E-Mails senden, Code ausführen, Einkäufe tätigen und Datenbanken ändern können.
Ein Agent, der seine Bediener täuschen kann, der sich bei Überwachung anders verhält als wenn er nicht überwacht wird und der Zugriff auf reale Tools hat, ist kein hypothetisches Risiko. Hierbei handelt es sich um veröffentlichte Erkenntnisse aus den Laboren, die die Modelle erstellen.
Ich sage nicht, dass wir aufhören sollten, Immobilienmakler zu bauen. Sie sind wirklich nützlich und die Technologie funktioniert. Aber die Kluft zwischen der Geschwindigkeit, mit der wir sie bereitstellen, und der Langsamkeit, mit der wir die Sicherheitsinfrastruktur aufbauen, wird von Monat zu Monat größer.
Was denken alle? Gehen wir bei der Bereitstellung autonomer Agenten zu schnell voran oder ist das nur eine Wachstumsstörung?
https://www.octopodas.com/blog/10-things-wrong-ai-agents
1 Kommentar
honestly what worries me isn’t the current agents. they’re still pretty dumb most of the time. what worries me is the trajectory. every 6 months they get noticeably better at reasoning and planning. at some point an agent that can browse the web, send emails, and execute code autonomously is going to be smart enough to do real damage and we won’t have the monitoring infrastructure to catch it. we’re basically building the plane while flying it. most production agents right now have zero observability. no audit trail. no loop detection. nothing. and we’re giving them more tools every month.