Hoe Werken LLM's (Large Language Models als chatGPT en Gemini)

Hoe Werken LLM’s (Large Language Models als chatGPT en Gemini)

De lancering van ChatGPT was het ‘iPhone-moment’ voor kunstmatige intelligentie. Maar waar de meeste mensen een handige chatbot zien die e-mails schrijft, zien computerwetenschappers een statistisch wonder. LLM’s (Large Language Models) zijn de meest complexe software-systemen die de mensheid ooit heeft gebouwd.

Maar hoe werkt een systeem dat niet kan ‘denken’, maar wel een voldoende haalt voor een universitair examen? Is het bewustzijn, of is het gewoon hele goede wiskunde? In dit technische dossier ontleden we de machine: van de neurale netwerken en vector-ruimtes tot de parameters die de creativiteit bepalen.

Inhoudsopgave

1. De ‘Transformer’

De moderne AI-revolutie begon niet in 2022, maar in 2017. Toen publiceerde Google een paper genaamd “Attention Is All You Need”. Hierin werd de Transformer-architectuur geïntroduceerd. Dit is de ‘T’ in GPT (Generative Pre-trained Transformer).

Vóór de Transformer lazen AI-modellen zinnen van links naar rechts (RNN’s). Ze vergaten vaak het begin van een zin tegen de tijd dat ze bij het einde waren. De Transformer veranderde dit met het Self-Attention Mechanism.

Hoe ‘Attention’ werkt:
Stel je de zin voor: “De bank weigerde de lening omdat hij te weinig onderpand had.”

Voor een computer is het woord “hij” dubbelzinnig. Slaat het op de bank of op de lener? Het Attention-mechanisme stelt het model in staat om elk woord in de zin tegelijkertijd te wegen ten opzichte van alle andere woorden. Het berekent dat “hij” in deze context sterker verbonden is met “onderpand” en dus verwijst naar de lener, niet de bank. Dit stelt LLM’s in staat om context te begrijpen over duizenden pagina’s tekst.

2. Van Woord naar Vector

Computers begrijpen geen taal; ze begrijpen alleen getallen. Om tekst verwerkbaar te maken, gebeuren er twee dingen:

Stap 1: Tokenization

Tekst wordt opgehakt in tokens. Een token is zelden een heel woord, maar vaak een lettergreep of een stukje code.
Feitje: Het woord “appel” is één token. Het woord “appeltaart” zijn er twee (“appel” + “taart”). GPT-4 heeft een vocabulaire van ongeveer 100.000 unieke tokens.

Stap 2: Embeddings (De Vectorruimte)

Dit is waar de magie gebeurt. Elk token wordt omgezet in een embedding: een lijst met duizenden getallen (coördinaten). Hiermee wordt het woord in een multidimensionale ruimte geplaatst.

In deze wiskundige ruimte staan woorden met een vergelijkbare betekenis dicht bij elkaar. “Koning” staat dicht bij “Koningin”, maar ver weg van “Broodrooster”.
Het model kan hierdoor rekenen met taal:

Vector(Koning) – Vector(Man) + Vector(Vrouw) ≈ Vector(Koningin)

Dit verklaart waarom AI snapt dat Parijs bij Frankrijk hoort, op dezelfde manier als Amsterdam bij Nederland hoort. Het is geen feitendatabase, het is geometrie.

3. Parameters en Neurale Lagen

Als we zeggen dat een model “groot” is, hebben we het over het aantal parameters. GPT-4 heeft er naar schatting 1,7 biljoen (1.700 miljard).

Een parameter is te vergelijken met een synaps in het menselijk brein: het is een verbinding tussen twee kunstmatige neuronen met een bepaald gewicht (weight).
Tijdens het trainen krijgt het model een zin te zien en doet een gok voor het volgende woord. Zat het fout? Dan worden de ‘knoppen’ (parameters) een klein beetje bijgesteld via een proces dat Backpropagation heet. Doe dit miljarden keren, en je krijgt een model dat de structuur van de menselijke taal bevat.

4. De Training Pipeline: Van ruw tot gepolijst

Een model zoals ChatGPT ontstaat in drie fases:

Fase	Naam	Wat gebeurt er?
1. Pre-training	Unsupervised Learning	Het model leest het hele internet (Common Crawl, Wikipedia, Github). Het leert hier feiten, grammatica en redeneren. Het resultaat is een ‘Base Model’ dat alleen maar tekst kan aanvullen, maar nog niet kan chatten.
2. SFT	Supervised Fine-Tuning	Mensen schrijven duizenden voorbeeld-dialogen (Vraag + Antwoord). Het model leert hier de vorm van een assistent aan (“Ik kan je daarmee helpen”).
3. RLHF	Reinforcement Learning	De veiligheidsfase. Het model genereert meerdere antwoorden en mensen kiezen de beste. Dit traint een apart ‘Reward Model’ dat de AI beloont voor nuttig en veilig gedrag.

5. Inference: Jij aan de knoppen

Wanneer jij een vraag stelt (de Prompt), gaat het model aan de slag om een antwoord te genereren (Inference). Hierbij spelen een aantal technische instellingen een rol die bepalen hoe ‘creatief’ de AI is.

Temperature (0.0 tot 2.0)

Dit is de belangrijkste hyperparameter. Een LLM berekent voor elk mogelijk volgend woord een waarschijnlijkheid.

Lage Temperature (0.2): Het model kiest altijd het woord met de allerhoogste kans. Het antwoord is feitelijk, repetitief en “veilig”. Ideaal voor coderen.
Hoge Temperature (1.0+): Het model durft woorden te kiezen die statistisch minder voor de hand liggen. Dit zorgt voor creativiteit en verrassing, maar verhoogt de kans op hallucinaties en onzin.

Context Window

Dit is het “kortetermijngeheugen” van het model. GPT-4 Turbo heeft een context van 128.000 tokens (ongeveer 300 pagina’s boek). Zodra je gesprek langer is dan dit limiet, “vergeet” het model het begin van de conversatie, simpelweg omdat de data niet meer in het geheugen past.

6. De Gevaren: Hallucinaties en Bias

Waarom liegt een LLM? Technisch gezien liegt het niet; het hallucineert. Omdat het model een probabilistische machine is en geen zoekmachine, probeert het altijd het patroon af te maken.

Als jij vraagt naar een onderzoek dat niet bestaat, zal de AI een titel verzinnen die klinkt als een wetenschappelijk onderzoek, compleet met verzonnen auteurs. Het model optimaliseert voor plausibiliteit (klinkt het goed?), niet voor waarheid.

7. De Toekomst: Multimodaal en Agents

We bewegen nu van LLM’s (alleen tekst) naar LMM’s (Large Multimodal Models). Modellen zoals Gemini 1.5 en GPT-4o kunnen van nature video kijken, audio luisteren en afbeeldingen genereren. Ze zetten al deze input om in dezelfde vector-ruimte.

Daarnaast zien we de opkomst van AI Agents. Dit zijn LLM’s die niet alleen tekst teruggeven, maar ook toegang hebben tot tools. Ze kunnen zelfstandig een browser openen, een API aanroepen of code uitvoeren om een taak te volbrengen.

Een LLM is geen database en geen mens. Het is een extreem geavanceerde vorm van statistiek die onze taal heeft gekraakt door deze om te zetten in complexe wiskundige vectoren. Het begrijpen van deze techniek helpt je om de tool beter te gebruiken: je weet nu waarom je specifieke instructies moet geven en waarom je de output altijd moet verifiëren.