
Habe letzte Woche Karpathys Jahresendsache gelesen (https://karpathy.bearblog.dev/year-in-review-2025/). Die "Geister gegen Tiere" Ein Teil blieb bei mir hängen.
Im Grunde sagt er, wir bauen keine KI, die sich wie Tiere entwickelt. Wir beschwören Geister – Dinge, die auftauchen, ihr Ding machen und dann verschwinden. keine Kontinuität zwischen Interaktionen.
Das erklärt, warum die Verwendung von ChatGPT für die eigentliche Arbeit so seltsam ist. Ich habe es zum Codieren verwendet und jedes Mal, wenn ich einen neuen Chat beginne, ist es, als würde ich mit jemandem sprechen, der an Amnesie leidet. den gesamten Projektkontext neu erläutern müssen.
Die Speicherfunktion hilft auch nicht viel. Es speichert zufällige Fakten wie "Benutzer bevorzugt Python" vergisst aber ganze Gespräche. Es handelt sich also eher um verstreute Notizen als um eine tatsächliche Erinnerung.
warum mich das nervt
Wenn KI für reale Aufgaben nützlich werden soll (nicht nur für die Beantwortung zufälliger Fragen), ist dies ein großes Problem.
als würde man es mit einem Programmierassistenten zu tun haben, der jeden Tag die Architektur Ihres Projekts vergisst. oder ein Recherchehelfer, der den Überblick darüber verliert, was Sie bereits recherchiert haben. grundsätzlich nutzlos.
Karpathy nennt Cursor und Claude Code als Beispiele für KI "lebt auf Ihrem Computer". aber selbst die erinnern sich nicht wirklich daran. Sie können Ihre Dateien sehen, aber es gibt keinen Hinweis darauf, dass sich mit der Zeit ein Verständnis dafür entwickelt.
was fehlt
am meisten "KI-Speicher" Sachen sind nur Abrufen. Durchsuchen Sie alte Chats nach relevanten Teilen. Aber so funktioniert Erinnerung eigentlich nicht.
als würde das echte Gedächtnis den Gesprächsfluss verfolgen und nicht nur zufällige Fakten. verstehen, warum etwas passiert ist. aktualisiert sich selbst, wenn Sie es korrigieren. Bauen Sie mit der Zeit Verständnis auf, anstatt jedes Gespräch neu zu beginnen.
Aktuelle Ansätze fühlen sich eher wie Strg+F durch Ihren Chat-Verlauf als wie tatsächliche Erinnerung an.
Was würde das beheben?
Ehrlich gesagt bin ich mir nicht sicher. Ich habe darüber nachgedacht, habe aber keine gute Antwort.
Vielleicht brauchen wir etwas grundlegend anderes als das Abrufen? Wie ein tatsächlicher anhaltender Zustand, der sich weiterentwickelt? aber das klingt kompliziert und wahrscheinlich langsam.
Ich habe beim Googeln ein Github-Projekt namens Evermemos gefunden. Ich hatte noch keine Zeit, es tatsächlich auszuprobieren, werde es aber vielleicht versuchen, wenn ich etwas Freizeit habe.
größeres Bild
Karpathys "Geister gegen Tiere" Das Ding bringt es wirklich auf den Punkt. Wir bauen unglaublich intelligente Dinge, die keine Vergangenheit, kein Wachstum, keine wirkliche Kontinuität haben.
Sie sind im Moment brillant, aber grundsätzlich diskontinuierlich. Als würde man mit jemandem reden, der an Amnesie leidet und zufälligerweise ein Genie ist.
Wenn KI auf lange Sicht tatsächlich nützlich sein soll (und nicht nur eine schicke Suchmaschine), muss jemand dieses Problem lösen. andernfalls bleiben wir bei sehr intelligenten Werkzeugen sitzen, die alles vergessen.
Ich bin neugierig, ob noch jemand darüber nachdenkt oder ob ich nur zu viel darüber nachdenke
Einreichungserklärung:
Hier geht es um eine grundlegende Einschränkung aktueller KI-Systeme, die Andrej Karpathy in seinem Jahresrückblick 2025 hervorgehoben hat: den Mangel an Kontinuität und echtem Gedächtnis. Während sich die KI-Fähigkeiten dramatisch weiterentwickelt haben, bleiben Systeme zustandslos und vergessen den Kontext zwischen Interaktionen. Dies hat erhebliche Auswirkungen auf die Zukunft von KI-Agenten, persönlichen Assistenten und der langfristigen Zusammenarbeit zwischen Mensch und KI. Der Beitrag untersucht, warum aktuelle abrufbasierte Ansätze unzureichend sind und was möglicherweise erforderlich ist, damit KI echte Kontinuität entwickeln kann. Dies bezieht sich auf den zukünftigen Verlauf der KI-Entwicklung und darauf, wie diese Systeme in den nächsten 5 bis 10 Jahren in das tägliche Leben integriert werden.
karpathy's new post about AI "ghosts" got me thinking, why cant these things remember anything
byu/Scared-Ticket5027 inFuturology
11 Kommentare
This is one of the reasons llms have a hard time playing hangman. They have no memory other than the chat itself. So they have nowhere to store a hidden word, no way to keep information secret even for a moment.
This is why there is a memory ram and ssd shortage now.
Yeah but I can imagine the storage requirements for millions of lines of text that would need to be stored and somehow processed
„memory“ is literally feeding in the entire chat history into the prompt stream, ie the context window. What’s needed is realtime model fine tuning, which is computationally overpowering, though all chatbots have some fine tuning they do periodically. Being able to make a vector DB of everything on your computer would be helpful for searching info, but it’s not the same retrieval as an LLM, so more like a glorified search. I think some proposals about infinite context windows have been made but I have not looked into them.
I’ve used chatgpt for programming too, but more often than not it does a poor job. Like an overly excited stage student.
I’ve often asked it why it’s polite and more importantly why it compliments me. Clearly it’s been taught to handle users. As for it’s selective memory, I figure that every conversation is a new thread. The data eventually gets integrated into the model. However it’s one conversation mixed in with a bajillion others and i figure that it doesn’t identify you.
One idea that I’ve toyed with is doing an extract of every conversation and starting the conversation with making it look through the extracts. Maybe it would help?
Well, yeah. This is what researchers and computer scientists have said is the „holy grail“ necessary for GenAI for decades. And we haven’t solved it. There’re a couple approaches that we’ve tried, you can find some research papers around things like GraphRAG – [Welcome – GraphRAG](https://microsoft.github.io/graphrag/), which attempts to simulate memory engrams by using a combination of Graph theory and RAG patterns. LangMem SDK – [LangMem SDK for agent long-term memory](https://blog.langchain.com/langmem-sdk-launch/) – tries to build something for Agents based on the data solutions and algorithms available today. But the key thing we’re missing is the math and understanding of how memory really works required to build an algorithm that would allow and AI to actually store and retrieve memory effectively. We as humans have an innate ability to remember things, but we don’t really know how to translate the way in which we are capable of memory to a computer.
Part of the issue is that human memory is sensory. Our memory retrieval is driven by our five senses in order to build our „context window“ for answering a question or accomplishing a task. This is what we would describe as a „World State“. LLMs just aren’t capable of understanding those concepts, as they have no senses to rely upon. There’s been experiments with creating a larger learning system that can incorporate data from cameras and microphones to try and bring two of our five senses into the learning system to aid in recall and context, but so far, those experiments are in their infancy and are limited to attempting to do things like teaching a computer to play an old Atari game. Google’s DeepMind team has attempted to build a simulated World State engine for AI to rely upon, and Genie 3 has shown some impressive progress there, now being capable of creating a „world state“ for several minutes of activity. But these tools are still only available in the research phase, as the compute required for them is absolutely insanely large (we’re talking thousands of dollars per minute of compute). You, as a human, have a world state that updates at about a rate of 10 bits per second. It seems slow, but then you add in our sensory processing capability, and you’ll understand why we struggle. The amount of sensory data we handle in those 10 bits is ∼10^9 bits/s. It’s an efficiency problem that biology has solved, that we haven’t solved in computing. [The unbearable slowness of being: Why do we live at 10 bits/s?: Neuron](https://www.cell.com/neuron/abstract/S0896-6273(24)00808-0?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0896627324008080%3Fshowall%3Dtrue)
Currently memory is just about refeeding it the whole conversation. This is computationaly intensive, that’s why it’s mostly avoided. To create memory that’s more similar to a human’s (or an animal’s) you need to keep the training going while you’re interacting with it. But that’s not as trivial as just saying it. For example why and when would you reward a behaviour and when would you punish it? This is totally outside the scope of current LLMs. Maybe in some future iteration of LLM architecture it might make sense, I don’t think it does now.
>“basically he says we’re not building AI that evolves like animals. we’re summoning ghosts – things that appear, do their thing, then vanish. no continuity between interactions.“
>“like real memory would keep track of conversation flow not just random facts“
Sounds like someone who uses the ‚free version‘ of AI. I have multiple AI threads going and it remembers previous contexts. When I have developed a context, and I have run out of time, in the ‚chat‘ I say „Save this as ‚xxx‘ for later, where ‚xxx‘ refers to the particular project stream.
Most free uses of AI are simply ‚transactional‘, i.e. glorified search tools. Paid versions have larger datasets and storage capabilities.
As of late 2025, LLMs are setup to be a product which is delivered to you ‚as is‘ and there is no technology allowing the models to learn and grow while they are running. Future AI might have this, but AI being able to learn was not neccessary in order to deliver a product which companies can charge for on a per use basis.
Moreover, you cannot compile frontier level LLMs at home, hence LLMs are controlled by a few very wealthy companies and their results are of a size (~2TB), that you need to pay for use of their data centers as well, each time you use AI.
Users running their own AI at home which on top of it all can learn is the worst case for companies such as OpenAI or Google. If we see the emergence of such technology, I would not bet too much on people operating big data centers.
So the current models are engines, not cars. When you jump onto GitHup Copilot on VSCode, or another platform, with a localized library, the coding experience completely changes. As an example, a certain financial institution, which rhymes with K.T. Porgan, has a coding group, and they have been instructed that 50% of their code has to be written through this method.
Just saying, a group like that wouldn’t make a call like that without reason. It saves time on the grunt work, for sure. Is it going to 1shot a whole backend for a financial institution? Of course not, that’s fucking stupid to expect it to do that.
Here’s the thing. These engines will have dedicated, end use focused, single purpose apps built around them. That’s when they will really shine. We’re literally only JUST NOW starting to see those single purpose applications, and any critique of how Gemini Canvas codes is tacitly naive.
LLMs as they are, are like a frozen snapshot of a brain. You query the snapshot, it gives you an answer based on what it’s learnt.
The problem is that training these brain snapshots takes billions of dollars on computers the size of towns. The models do not learn (change their weights) in real time. To do that needs a level of technology years away.
Current “memory based” approaches are reading back entire conversations or context into the current session, which is not just expensive but clearly not a long term solution (imagine reading back the last year of your life every time you want to do anything).