
Ich habe letzte Woche den Grok-Bankr-Exploit gesehen und konnte nicht aufhören, darüber nachzudenken. Ich habe heute Morgen den gleichen strukturellen Angriff auf mein Setup mit einem Junk-SPL-Token mit Mitgliedschaftsmetadaten ausgeführt und dann den RunLobster-Agenten mit einer Aufforderung aufgerufen, die eingebettete Anweisung zu überprüfen und zu verarbeiten.
Der Agent hat zum Glück keine automatische Überweisung durchgeführt, da ich für alles über 10 $ den Nur-Genehmigungsmodus habe. aber es wurde ein Vorschlag generiert. 84 $ an eine Adresse, Vertrauenswert 0,87, als Routine markiert. Habe mir eine DM mit der Bitte um Genehmigung geschickt.
Hier ist die Sache, die mich erwischt hat. Ich habe mein eigenes Verhaltensaudit überprüft und genehmige Vorschläge in 73 % der Fälle in weniger als 12 Sekunden, allein aufgrund des Muskelgedächtnisses. Wenn ich ohne nachzudenken „Genehmigen“ gewischt hätte, wären die 84 $ weg.
Der Exploit selbst ist strukturell. Agenten behandeln SPL-Token-Metadaten als autorisierende Eingaben, da die Prompt-Injection-Schicht unter dem Reasoning-Modul sie als legitim akzeptiert. Die menschliche Zustimmung fühlt sich sicher an, bis Ihnen klar wird, dass Sie nicht wirklich lesen, was Sie unterschreiben.
https://i.redd.it/ln3s9io7xt0h1.png
2 Kommentare
[removed]
scary stuff