Es ist schon erstaunlich: KIs (vor allem LLMs) sind sagenhaft schlau – und gleichzeitig unbegreiflich dumm. Und Dein Popo weiß mehr vom Leben, als die KI je wissen wird. Warum?!
Einerseits ist KI ein echtes Wunder, eine Maschine, die „denkt“ und mit uns spricht.
Auf der anderen Seite versteht sie ganz banale Dinge nicht und macht Fehler, die ein dreijähriges Kind erkennt.
Warum liegen Genie und Dummheit so nah beieinander?
Der Unterschied ist das „Weltmodell“.
Das Gehirn im Einmachglas
Ein Weltmodell (World Model) ist unser Verständnis, was die Welt ist und wie sie funktioniert.
Ein Konzept in unserem Kopf, mit dem wir die Welt verstehen, uns in ihr orientieren und handeln.
Nur.: Dein und mein Verständnis von der Welt ist GANZ anders als das der KI.
Denn wir leben in der Welt; die KI kann darüber nur lesen. Das ist, wie wenn man in einem dunklen Zimmer aufwächst, in dem man zwar ALLES lesen darf, aber nie nach drau0ßen kommt.
Oder wie in einem alten Horrorfilm, wenn der verrückte Wissenschaftler ein lebendes Gehirn im Einmachglas hat.

So ein Gehirn kann zwar sehen und denken, aber es kann nicht fühlen – und ohne Hände auch nichts be-greifen.
Nebenbei: Ich weiß nicht, warum manche Leute die Idee grandios finden, ihr Gehirn in eine Maschine hochzuladen und dort „weiterzuleben“´ Haben die kein Leben? Oder Angst vor Stromausfall?
Anyway, der KI geht es wie dem Gehirn: Sie liest alles, sieht manches – aber verstehen, erleben wie wir es tun., kann sie nicht. Sie hatte nie die Sonne im Gesicht, nie den Wind in den Haaren, hat nie jemanden umarmt.
Was bedeutet ein Wort?
Man sagt so gerne „Ein Bild sagt mehr als tausend Worte“ (Und Generative KI produziert täglich Millionen von „neuen“ Bildern.) Aber ein Wort sagt auch mehr als tausend Bilder. Weil ein Wort viel mehr ist als nur ein Wort.
Schauen wir mal in die Semantik, die Bedeutung von Worten und Sprache.
1. Das Wort an sich.
Eine Sammlung von Zeichen oder Lauten mit einer bestimmten, kulturell übereingekommenen Bedeutung. Schon das ist recht vage – was genau ist ein „Auto“? Da denkt jeder an etwas anderes.
2. Der Kontext
Das sind die Worte, die drumherum stehen, die Situation – aber auch, wie sie geschrieben oder gesagt wurden. Der Kontext kann die Bedeutung radikal ändern, wie von Lob zu Beschimpfung oder umgekehrt.
Der Kontext gibt uns auch an, worüber wir reden. Sprechen wir bei „Golf“ über ein Auto oder einen Sport für alte Menschen? Oder über Geografie und eine politische Farce?
(Und jeder, der gerade bei „alte Leute“ getriggert wurde, spürt die Macht des Kontextes. 🙂
3. Die Konotationen
Das ist unsere Bewertung, ob etwas gut oder schlecht ist. Auch das hängt vom Kontext ab, der Darstellung, der Situation und unseren Erfahrungen. Ist „Auto“ gut oder böse?
4. Die Assoziationen
Das sind die mit dem Wort verbundenen Vorstellungen und Gefühle. Denken wir bei Auto an Freiheit und Ferien, oder an rücksichtslose SUV- Fahrer, die den Radweg blockieren.
Ist Golf für uns Entspannung oder Snobismus?
Eine ganze Menge Informationen für so kleine Worte.
(Die Bedeutung von Four-Letter-Words ist wieder eine ganz andere. 😉
Und die KI ist erstaunlich gut darin, Worte sinnvoll zu produzieren.
Das Leben in Bildern. Und im Stau.
Aber nehmen wir das Wort „Stau“.
Als Bild sind das viele Autos, die sich auf einer Autobahn drängen.
Aber hast Du jemals im Stau gestanden, ja festgesteckt?
Dann weißt Du, dass Stau VIEL mehr ist als „viele Autos stehen still“.
Denn Stau ist Stress. Es nervt, weil Du nicht weiterkommst. Es stresst, weil Du nicht weißt, wie lange es dauern wird. Du wirst einen Termin verpassen und andere Menschen werden wütend auf Dich sein, weil Du Deinen Absprachen nicht nachkommst. Du kannst aber auch nicht raus, egal was Du machst du bist hilflos. Das macht wütend. Und unsicher. Und dann ist es heiß (mal Stau ohne Klimaanlage erlebt?). Oder Du hast Hunger. Oder Durst. Oder das Gegenteil und weit und breit kein WC. Die Kinder quengeln, die Lebenspartner sind genervt, eigentlich wolltest Du doch in die Ferien… ARRRGGGH!
DAS ist Stau!
Und das wird die KI nie erleben.
Erdbeer-Smoothie
Ein anderes Beispiel sind kleine Rätsel, wie „Leg eine Erdbeere in eine Tasse und dreh die Tasse um. Wie viele Erdbeeren sind in der Tasse?“
Wir wissen, dass die Erdbeere rausfällt. Die KI wusste das bis vor ein paar Monaten nicht und sagte Eine oder Keine oder Drei, wild geraten.
Sie konnte Dir auch nicht sagen, wie oft der Buchstabe R in „Erdbeere“ vorkommt.
Erstaunlich, oder? Ein LLM kann nicht zählen und hat keine Ahnung von der Welt, von so basalen Dingen wie Schwerkraft.
Allerdings hat sich in den vergangenen Monaten sehr viel getan. Kein gutes LLM fällt noch auf solche Fangfragen ein, sondern gibt kluge, um nicht zu sagen klugscheißerische Antworten.
Schade eigentlich, ich fühlte mich so gerne überlegen.
Aber auch ein Beispiel, dass wir ganz vieles, das wir lernen, genauso schnell wieder ent-lernen müssen.
Zum Schluss: Hinsetzen!
In dem Video gehe ich auf das Konzept von Tisch und Stuhl ein.
Und es gibt ja den archetypischen Stuhl, vier Beine, Sitzfläche, Rückenlehne.
Das kriege ich auch aus Chat GPT, wenn ich um ein Bild für „Stuhl“ bitte. Schlicht und klar.

Aber ist es auch ein Stuhl, wenn er drei Beine hat? Ah, eher ein Hocker. Oder zwei Beine, so ein Swing Chair? Ja, okay, das geht, haben wir im Esszimmer. Ein Bein, wie ein Barhocker? Oder fünf Beine, wie ein Bürostuhl? Arrgh! (Schon wieder!)
Noch besser wird es bei „Sitzgelegenheit“. Denn wir könne auf noch viel mehr Sitzen als nur Stühlen.
Zum Beispiel auf dem Tisch. Auf dem Boden, der Couch, der Fensterbank. Einem umgefallenen Baum, einem Felsen, einer Bierkiste. Wie beschreibe ich dieses Konzept? Was ist mit einem Sitzsack?!
Ein drittes Mal: Arrgh!
Das Lustige: Du als Mensch weißt sofort, ob Du darauf sitzen kannst. Dein Po spürt, ob etwas eine gute Sitzgelegenheit ist. Die KI, ganz ohne Po, spürt das nicht.
Die Rückkehr der Roboter
Die Lösung, der Weg den KI ein viel besseres Verständnis der Welt zu geben sind: Simulationen und Roboter.
Simulationen (Physics Engines) werden oft in Spielen eingesetzt, damit sich all die Zerstörung auch realistisch anfühlt. (Das bizarrste Beispiel findest Du im Video bei 12:30).
Selbstfahrende Autos lernen mit Simulationen und das können auch andere KIs nutzen. Nicht perfekt, es ist ein bisschen wie Puppentheater, aber sehr viel besser als im Glas herumsitzen und böse gucken.
Die andere Möglichkeit ist, echte Roboter durch die echte Welt zu steuern und Feedback zu sammeln.
Okay, auch da gibt es Hindernisse, Du möchtest weder den Roboter noch die Welt und ihre Bewohner beschädigen. Aber da lernst Du mal, was „echt“ ist.
Nebenbei: Deswegen pushen viel KI Firmen in Richtung Robotik – nicht um dort Geld zu verdienen, sondern um zu lernen.
Skynet ist nicht mehr weit.
Sprache ist menschlich
Am Ende ist da Problem mit Sprache, dass sie so menschlich ist.
Dass es so schwer ist, Bedeutung sauber zu verstehen, liegt nicht so sehr an der KI, sondernd daran, dass Sprache entsetzlich vieldeutig ist. Mansche Sprachen noch mehr als andere – das Arabische ist zum Beispiel ECHT schwer zu fassen, weil es so vielschichtig ist.
Als ein amerikanischer Richter einmal definieren sollte, was genau jetzt P*rnograhie ist, rettete er sich in „I know it, when I see it“. Das ist erheiternd und menschlich und gar nicht dumm. Manches kann man nur erleben und implizit verstehen.
Die KI ist noch nicht so weit. Das ist auch völlig okay. Solange wir verstehen, was die Grenzen sind und woher sie kommen, können wir KI da einsetzen, wo sie gut ist.
Und das ist schon spannend genug.