Wat is een large language model (LLM)?

Een large language model (LLM) is een type kunstmatige intelligentie dat getraind is op grote hoeveelheden tekst om menselijke taal te begrijpen en te genereren. Het model leert patronen in taal door miljoenen tot miljarden voorbeeldzinnen te verwerken. Het resultaat is een systeem dat vragen kan beantwoorden, teksten kan samenvatten, code kan schrijven en gesprekken kan voeren.

LLM's zijn geen zoekmachines en geen databases. Ze slaan geen feiten op als losse regels, maar leren relaties tussen woorden en concepten. Dat maakt ze flexibel, maar ook feilbaar.

De term "large" verwijst naar twee dingen: de omvang van de trainingsdata en het aantal parameters in het model. Parameters zijn de interne variabelen die het model tijdens de training aanpast. Moderne LLM's hebben er tientallen tot honderden miljarden van.

Bekende voorbeelden zijn GPT-4 van OpenAI, Claude van Anthropic en Gemini van Google. Ze worden ingezet voor uiteenlopende taken, van klantenservice tot softwareontwikkeling.

Hoe een LLM werkt

Een LLM doorloopt meerdere fases voordat het bruikbaar is. Van ruwe data tot een model dat begrijpelijk antwoord geeft, is een heel proces. Hieronder wordt elke stap uitgelegd.

Dataverwerking en training

Alles begint met data. LLM's worden getraind op enorme tekstcorpora: boeken, websites, wetenschappelijke artikelen, forumberichten en meer. Die data wordt eerst schoongemaakt en gestructureerd. Dubbele content, schadelijke tekst en ruis worden gefilterd.

Daarna volgt tokenisatie. De tekst wordt opgedeeld in kleine eenheden, tokens genaamd. Een token is vaak een woord, maar kan ook een woorddeel of leesteken zijn. Het model werkt nooit met ruwe tekst, altijd met tokens.

Tijdens de training leert het model voorspellen welk token het waarschijnlijkst volgt op een reeks andere tokens. Dit klinkt eenvoudig, maar op miljardenschaal leidt het tot verrassend rijke taalkennis. De training vereist enorme rekenkracht en duurt weken tot maanden, zelfs op gespecialiseerde hardware.

Architectuur en het transformer-model

De meeste moderne LLM's zijn gebouwd op de transformer-architectuur, geïntroduceerd in 2017. Het kernmechanisme daarbinnen heet self-attention. Hiermee kan het model bij het verwerken van een woord tegelijk rekening houden met alle andere woorden in de context.

Dat is een groot verschil met oudere modellen, die tekst woord voor woord verwerken. Dankzij attention begrijpt een LLM dat "hij" in de zin "Jan gaf zijn boek aan Pieter, hij was blij" waarschijnlijk verwijst naar Pieter. Context wordt niet vergeten, maar actief meegewogen.

Het contextvenster bepaalt hoeveel tekst het model in één keer kan verwerken. Moderne modellen hebben contextvensters van tienduizenden tot meer dan een miljoen tokens.

Fine-tuning

Een basismodel na de eerste training is nog niet direct bruikbaar als assistent. Het genereert tekst, maar volgt geen instructies en heeft geen "gedrag". Fine-tuning past het model aan op specifieke taken of gewenst gedrag.

Een veelgebruikte methode is reinforcement learning from human feedback (RLHF). Menselijke beoordelaars beoordelen meerdere antwoorden van het model. Die voorkeuren worden gebruikt om het model verder te trainen. Zo leert het niet alleen grammaticaal correcte tekst te genereren, maar ook behulpzame, veilige en relevante antwoorden te geven.

Schaalwetten en emergente capaciteiten

Meer parameters en meer trainingsdata leiden voorspelbaar tot betere prestaties. Dit wordt beschreven door schaalwetten: wiskundige relaties tussen modelgrootte, datahoeveelheid en modelprestatie.

Interessanter is wat er boven een bepaalde schaal spontaan ontstaat. Grotere modellen vertonen capaciteiten die in kleinere modellen volledig afwezig zijn, zoals redeneren in stappen, analogieën maken of wiskunde oplossen. Dit worden emergente capaciteiten genoemd. Ze worden niet expliciet getraind, maar verschijnen als bijproduct van schaal. Waarom dat precies gebeurt, is nog niet volledig begrepen.

Wat je met een LLM kunt doen

Een getraind LLM is een veelzijdig fundament. Hoe je het inzet, hangt af van de toepassing. Er zijn verschillende technieken om het gedrag en de output van een model te sturen of uit te breiden.

Promptengineering

De eenvoudigste manier om een LLM aan te sturen is via de prompt: de instructie of vraag die je het model geeft. Promptengineering is de praktijk van het zorgvuldig formuleren van die input om betere output te krijgen.

Een goed geformuleerde prompt geeft context, specificeert de gewenste toon en formaat, en sluit ambiguïteit uit. Het verschil tussen een vage en een precieze prompt kan groot zijn. Bij complexe taken helpt het om het model te vragen stap voor stap te redeneren. Dit wordt chain-of-thought prompting genoemd en leidt aantoonbaar tot betere resultaten bij logische en wiskundige vraagstukken.

Retrieval-augmented generation (RAG)

LLM's hebben een kennisgrens. Ze weten alleen wat er in hun trainingsdata zat, tot een bepaalde datum. RAG lost dit op door het model tijdens het genereren van een antwoord toegang te geven tot externe bronnen.

Het werkt als volgt. Een zoekmechanisme haalt relevante documenten op uit een kennisbank of database. Die documenten worden samen met de vraag als context aan het model meegegeven. Het model genereert vervolgens een antwoord op basis van zowel zijn getrainde kennis als de opgehaalde informatie. RAG wordt veel gebruikt in bedrijfstoepassingen waar actuele of interne kennis belangrijk is.

Tool use en agents

Een LLM hoeft niet alleen tekst te genereren. Moderne modellen kunnen tools aanroepen: een rekenmachine, een zoekopdracht, een API of een stuk code. Het model beslist zelf wanneer een tool nuttig is, roept hem aan en verwerkt het resultaat in zijn antwoord.

Dit principe ligt aan de basis van LLM-agents. Een agent is een systeem waarbij het model niet één keer antwoordt, maar een reeks stappen plant en uitvoert om een doel te bereiken. Het kan taken opsplitsen, tussenstappen evalueren en bijsturen als iets niet werkt. Agents worden ingezet voor complexe workflows, zoals het automatisch verwerken van documenten of het uitvoeren van meerledige onderzoekstaken.

Redeneren en chaining

Redeneren is een van de meest opvallende capaciteiten van grote modellen. Nieuwere modellen zijn specifiek getraind om problemen stap voor stap door te werken voordat ze een antwoord geven. Dit verbetert de nauwkeurigheid bij complexe vragen aanzienlijk.

Chaining gaat een stap verder. Hierbij worden meerdere modelaanroepen aan elkaar gekoppeld, waarbij de output van de ene stap de input van de volgende wordt. Dit maakt het mogelijk om taken uit te voeren die te complex zijn voor een enkele prompt, zoals het schrijven, reviewen en verbeteren van een document in geautomatiseerde opeenvolgende stappen.

Bekende LLM-modellen

Er zijn tientallen large language models beschikbaar, van volledig gesloten commerciële systemen tot open modellen die vrij te downloaden zijn. De modellen verschillen in grootte, specialisatie en toegankelijkheid. Hieronder staan de meest relevante.

GPT (OpenAI)

GPT staat voor Generative Pre-trained Transformer. OpenAI bracht in 2018 de eerste versie uit. GPT-4, uitgebracht in 2023, is een van de meest gebruikte en best presterende modellen op dit moment. Het wordt aangeboden via ChatGPT en via de OpenAI API. GPT-modellen zijn gesloten: de gewichten en trainingsdata zijn niet openbaar.

Claude (Anthropic)

Claude is ontwikkeld door Anthropic met een sterke nadruk op veiligheid en betrouwbaar gedrag. De Claude-modellen zijn beschikbaar via claude.ai en de Anthropic API. Claude wordt veel ingezet voor taken waarbij nauwkeurigheid en genuanceerde instructieopvolging belangrijk zijn.

Gemini (Google)

Gemini is het LLM-ecosysteem van Google. Het is van oorsprong multimodaal, wat betekent dat het niet alleen tekst maar ook afbeeldingen, audio en video kan verwerken. Gemini is geïntegreerd in Google-producten zoals Search en Workspace.

LLaMA (Meta)

Meta's LLaMA-modellen zijn open uitgebracht. Dat betekent dat ontwikkelaars de modelgewichten kunnen downloaden en lokaal draaien of verder fine-tunen. Dit maakt LLaMA populair in de onderzoekswereld en bij bedrijven die geen data naar externe servers willen sturen.

Mistral

Mistral AI is een Europees bedrijf dat efficiënte open modellen uitbrengt. Hun modellen presteren sterk in verhouding tot hun omvang en zijn geliefd bij ontwikkelaars die zoeken naar lichtgewicht alternatieven voor de grote commerciële modellen.

De verschillen tussen modellen zitten niet alleen in prestatie. Licentievoorwaarden, privacy, kosten en beschikbare integraties spelen allemaal een rol bij de keuze voor een specifiek model.

Voordelen van large language models

LLM's zijn breed inzetbaar. Dat is precies waarom ze zo snel zijn doorgedrongen in uiteenlopende sectoren. Hieronder staan de belangrijkste praktische voordelen.

Tekstgeneratie en contentcreatie

LLM's kunnen op aanvraag teksten schrijven: artikelen, samenvattingen, productbeschrijvingen, e-mails en rapporten. De kwaliteit ligt vaak dicht bij wat een menselijke schrijver produceert. Voor organisaties die veel content produceren, levert dit een aanzienlijke tijdsbesparing op.

Ook het herschrijven en verbeteren van bestaande teksten gaat snel. Een LLM past toon, stijl en lengte aan op basis van een instructie.

Klantenservice en gespreksafhandeling

Chatbots op basis van LLM's kunnen complexere vragen beantwoorden dan traditionele regelgebaseerde systemen. Ze begrijpen context, herkennen intentie en kunnen een gesprek over meerdere beurten volhouden. Dit verlaagt de druk op menselijke medewerkers en verbetert de beschikbaarheid.

Vertaling en meertalige toepassingen

Moderne LLM's beheersen tientallen talen. Vertaling is niet langer een aparte taak waarvoor een gespecialiseerd systeem nodig is. Hetzelfde model dat tekst schrijft, kan ook vertalen, samenvatten in een andere taal of meertalige klantvragen beantwoorden.

Code schrijven en debuggen

LLM's zijn sterk in het genereren en uitleggen van code. Ontwikkelaars gebruiken ze om boilerplate te schrijven, bugs op te sporen en onbekende codebases te begrijpen. Tools als GitHub Copilot zijn direct gebouwd op LLM-technologie.

Analyse en kennisverwerking

Grote hoeveelheden tekst analyseren, structureren en samenvatten gaat snel met een LLM. Denk aan het verwerken van contracten, klantfeedback, onderzoeksrapporten of nieuwsartikelen. Taken die eerder uren kostten, zijn terug te brengen naar minuten.

Toegankelijkheid van kennis

LLM's maken complexe informatie toegankelijker. Ze kunnen technische onderwerpen uitleggen op het niveau van de gebruiker, vragen beantwoorden zonder dat iemand een specialist hoeft te raadplegen, en kennis ontsluiten die anders moeilijk vindbaar is.

Beperkingen en uitdagingen

LLM's zijn krachtig, maar niet onfeilbaar. Wie ze inzet zonder de beperkingen te kennen, loopt risico op fouten met serieuze gevolgen. Hieronder staan de belangrijkste aandachtspunten.

Hallucinaties

Een van de bekendste problemen is hallucinatie. Een LLM genereert tekst op basis van waarschijnlijkheid, niet op basis van verificatie. Dat betekent dat het overtuigend onjuiste informatie kan produceren: verzonnen citaten, niet-bestaande bronnen, foutieve feiten.

Het model "weet" niet dat het iets fout heeft. Het genereert wat statistisch plausibel klinkt. Dit maakt kritische beoordeling van de output altijd noodzakelijk, zeker bij feitelijke of juridische inhoud.

Bias

LLM's leren van menselijk geschreven tekst. Die tekst bevat vooroordelen, stereotypen en ongelijke representatie. Het model neemt die patronen over. Dit uit zich in subtiele of expliciete bias in de output: bepaalde groepen worden anders beschreven, bepaalde perspectieven worden vaker ingenomen.

Bias is lastig volledig te elimineren. Fine-tuning en contentfiltering verminderen het probleem, maar lossen het niet volledig op. Voor toepassingen waarbij eerlijkheid en representatie belangrijk zijn, verdient dit expliciete aandacht.

Energieverbruik en kosten

Het trainen van een groot model vereist enorme hoeveelheden rekenkracht. De energiekosten zijn navenant. Ook het draaien van een model op schaal, inference genaamd, vergt aanzienlijke infrastructuur.

Voor de meeste organisaties is dit indirect een probleem: ze betalen per API-aanroep aan een aanbieder. Maar de bredere maatschappelijke kosten van energieverbruik en CO2-uitstoot zijn een groeiend punt van kritiek op de sector.

Contextbeperkingen

Hoewel contextvensters steeds groter worden, blijft er een limiet. Een model kan geen onbeperkt lange documenten of gesprekken verwerken. Bovendien neemt de aandacht van het model voor vroegere delen van de context af naarmate de context langer wordt. Dit fenomeen heet lost in the middle en is een praktisch probleem bij lange documenten.

Gebrek aan actuele kennis

Een LLM weet alleen wat er in zijn trainingsdata zat, tot een bepaalde afsluitdatum. Gebeurtenissen daarna zijn onbekend, tenzij het model via RAG of zoektools wordt aangevuld. Dit maakt LLM's minder geschikt als enige bron voor tijdgevoelige informatie.

LLM's en veiligheid

Naarmate LLM's breder worden ingezet, worden de veiligheidsrisico's relevanter. Die risico's zitten op meerdere niveaus: misbruik van de technologie, kwetsbaarheden in de systemen zelf en onduidelijkheid over eigendomsrechten van de gegenereerde output.

Misbruik en contentfiltering

LLM's kunnen worden ingezet om schadelijke content te genereren: desinformatie, phishingberichten, manipulatieve teksten of instructies voor gevaarlijke activiteiten. Aanbieders proberen dit te beperken via contentfilters en gedragsrichtlijnen die tijdens fine-tuning worden ingebakken.

Deze filters zijn niet waterdicht. Via zorgvuldig geformuleerde prompts, ook wel jailbreaks genoemd, lukt het soms om een model buiten zijn richtlijnen te laten opereren. Het is een doorlopend kat-en-muisspel tussen aanvallers en modelontwikkelaars.

Prompt injection

Prompt injection is een specifieke aanvalsvorm waarbij kwaadaardige instructies worden verstopt in tekst die het model verwerkt. Stel dat een LLM-agent een e-mail leest en daarin een verborgen instructie staat die het model opdraagt iets anders te doen dan de gebruiker verwacht. Het model ziet geen verschil tussen legitieme context en ingesloten aanvalsinstructies.

Dit is een serieus beveiligingsprobleem, vooral voor LLM-agents die autonome acties uitvoeren. Oplossingen bestaan, maar vereisen zorgvuldig systeemontwerp.

Rechten en auteursrecht rond LLM-output

De juridische status van LLM-gegenereerde content is in veel landen nog onduidelijk. Een aantal vragen speelt hierbij een rol. Wie is eigenaar van een tekst die een LLM heeft geschreven: de gebruiker, de aanbieder of niemand? Kan LLM-output auteursrechtelijk beschermd worden?

In de meeste rechtsstelsels geldt dat auteursrecht menselijke creativiteit vereist. Volledig door een AI gegenereerde werken vallen daardoor vaak buiten bescherming. Dit heeft praktische gevolgen voor bedrijven die LLM-output commercieel inzetten.

Daarnaast lopen er rechtszaken over de trainingsdata zelf. Diverse auteurs, uitgevers en nieuwsorganisaties hebben claims ingediend omdat hun werk zonder toestemming is gebruikt om modellen te trainen. De uitkomst van deze zaken zal de sector de komende jaren blijven beïnvloeden.

De toekomst van LLM's

LLM-technologie ontwikkelt zich snel. Wat vandaag een geavanceerde toepassing is, wordt morgen een standaardfunctie. Een aantal ontwikkelingen is nu al zichtbaar en zal de komende jaren bepalend zijn.

Multimodaliteit

De eerste generatie LLM's werkte uitsluitend met tekst. Nieuwere modellen verwerken ook afbeeldingen, audio, video en code binnen hetzelfde systeem. Dit opent toepassingen die eerder onmogelijk waren: een model dat een diagram analyseert, een gesprek transcribeert en daarop reageert, of visuele content genereert op basis van een tekstbeschrijving.

Multimodaliteit maakt LLM's inzetbaar in sectoren waar tekst alleen niet volstaat, zoals de medische beeldvorming, productontwikkeling en onderwijs.

Betere redeneermodellen

Een van de actieve onderzoeksgebieden is het verbeteren van redeneren. Modellen die expliciet stap voor stap redeneren voordat ze een antwoord geven, presteren aantoonbaar beter op complexe taken. Dit geldt voor wiskunde, logica en meerledige probleemoplossing.

De verwachting is dat reasoning models een grotere rol gaan spelen in professionele toepassingen waar nauwkeurigheid cruciaal is, zoals juridische analyse, financiële modellering en wetenschappelijk onderzoek.

Kleinere en efficiëntere modellen

Niet elke toepassing heeft een model met honderden miljarden parameters nodig. Er is een duidelijke trend naar kleinere modellen die efficiënter zijn, minder energie verbruiken en lokaal kunnen draaien op een laptop of telefoon. Dit vergroot de toegankelijkheid en verlaagt de afhankelijkheid van externe API's.

Voor het MKB is dit relevant. Kleinere modellen maken het haalbaar om LLM-toepassingen te draaien zonder grote cloudkosten of privacybezwaren rondom het versturen van bedrijfsdata naar externe servers.

Integratie in bestaande software

LLM's worden steeds vaker ingebouwd in bestaande tools in plaats van aangeboden als losstaande chatinterface. Denk aan tekstverwerkers, CRM-systemen, klantenserviceplatformen en ontwikkelomgevingen. De technologie verdwijnt naar de achtergrond en wordt onderdeel van bestaande workflows.

Dit verschuift de vraag van "wat kan een LLM?" naar "hoe integreer je het verantwoord in je processen?". Dat is precies waar de uitdaging voor de komende jaren ligt.

LLM's als fundament voor de toekomst van taalgedreven technologie

Large language models hebben in korte tijd een centrale plek ingenomen in hoe organisaties omgaan met taal, kennis en automatisering. Ze zijn geen wondermiddel, maar wel een fundamenteel nieuwe manier om met informatie te werken.

De kracht zit in de breedte. Hetzelfde model dat een e-mail schrijft, kan ook code debuggen, een contract samenvatten of een klantvraag beantwoorden. Die veelzijdigheid maakt LLM's waardevol voor vrijwel elke sector.

Tegelijkertijd vragen ze om een kritische blik. Hallucinaties, bias en juridische onduidelijkheden zijn reële aandachtspunten. Wie LLM's verantwoord inzet, combineert de snelheid en schaal van het model met menselijk oordeel op de momenten dat het ertoe doet.

De technologie staat niet stil. Betere redeneermodellen, multimodaliteit en efficiëntere architecturen maken LLM's steeds capabeler en toegankelijker. Voor bedrijven die nu investeren in kennis en integratie, is dat een voorsprong die moeilijk in te halen is.

Tuple helpt organisaties bij het bouwen van software die gebruikmaakt van deze mogelijkheden, van eerste verkenning tot werkende implementatie.

Veelgestelde vragen

Wat is een large language model?

Een large language model (LLM) is een AI-systeem dat getraind is op grote hoeveelheden tekst om menselijke taal te begrijpen en te genereren. Het leert statistische patronen tussen woorden en concepten, waardoor het vragen kan beantwoorden, teksten kan samenvatten, content kan schrijven en gesprekken kan voeren. Bekende voorbeelden zijn GPT-4, Claude en Gemini.

Wat is het verschil tussen een LLM en GPT?

GPT is een specifiek large language model ontwikkeld door OpenAI. LLM is de overkoepelende term voor de categorie AI-modellen waar GPT onder valt. Alle GPT-modellen zijn LLM's, maar niet alle LLM's zijn GPT. Andere LLM's zijn bijvoorbeeld Claude, Gemini en LLaMA, elk ontwikkeld door verschillende organisaties met verschillende aanpakken.

Wat is het verschil tussen een LLM en AI?

AI is het brede vakgebied binnen de informatica dat zich richt op systemen die taken uitvoeren die normaal menselijke intelligentie vereisen. Een LLM is één specifiek type AI, gericht op het begrijpen en genereren van taal. Niet alle AI-systemen zijn LLM's. Andere vormen van AI zijn beeldherkenningsmodellen, aanbevelingssystemen en robotica.

Wat zijn de 4 typen AI?

AI wordt vaak ingedeeld in vier categorieën op basis van capaciteit. Reactieve systemen reageren op input zonder geheugen of leren, zoals vroege schaakcomputers. Systemen met beperkt geheugen leren van historische data, waar de meeste moderne AI inclusief LLM's onder valt. Theory of mind AI, die intenties en overtuigingen aan anderen kan toeschrijven, bestaat nog niet in de praktijk. Zelfbewuste AI, met bewustzijn en zelfkennis, blijft vooralsnog theoretisch.

Ook interessant

Parameter

Een parameter is een fundamenteel element in programmeren dat dient als een plaatsvervanger binnen de declaratie van een functie of methode. Het fungeert als een variabele die waarden ontvangt die aan de functie worden doorgegeven wanneer deze wordt aangeroepen.

Ruwe Data

Ruwe data verwijzen naar ongewerkte en ongewijzigde informatie die rechtstreeks uit verschillende bronnen is verzameld. Het is de beginfase van data voordat enige analyse of interpretatie is toegepast. Ruwe data zijn vergelijkbaar met een digitale momentopname, die informatie vastlegt precies zoals deze op een specifiek moment in de tijd bestaat. Deze data worden gekenmerkt door hun ongerepte aard, waardoor ze een authentieke weergave van de bron vormen.

Data

Data is de fundamentele bouwsteen van informatie, bestaande uit een verzameling feiten, cijfers, beelden of geluiden die kunnen worden geanalyseerd, gemanipuleerd en verzonden door computers en digitale apparaten. In de technologiegedreven wereld van vandaag is data overal aanwezig. Het doordringt elk aspect van ons leven en speelt een cruciale rol in de manier waarop we informatie verwerken, uitwisselen en begrijpen.

Server

Een server is een robuuste computer of software op een computer die diensten levert aan andere computerprogramma's en hun gebruikers. Deze diensten omvatten het opslaan, verwerken en beheren van gegevens, apparaten en systemen. In een datacenter wordt de fysieke computer waarop een serverprogramma draait vaak een server genoemd.

Public Cloud

Public cloud computing, inclusief cloud hosting, is een model dat on-demand toegang biedt tot een gedeelde pool van computerbronnen via het internet. Het biedt flexibiliteit, schaalbaarheid en kostenefficiëntie die de manier hebben veranderd waarop bedrijven en particulieren hun digitale infrastructuur beheren.

Python

Python is een programmeertaal die als elegant en veelzijdig wordt beschouwd. Het is een hoeksteen van moderne softwareontwikkeling geworden. De taal is gemaakt door Guido van Rossum, een Nederlandse programmeur, als opvolger van de ABC-programmeertaal. De naam Python is geïnspireerd op de Britse komedieserie "Monty Python's Flying Circus."

C++

C++ wordt beschouwd als een van de belangrijkste programmeertalen. Bjarne Stroustrup heeft het in de vroege jaren 80 ontwikkeld. C++ is een uitbreiding van de C-programmeertaal die extra functies bevat die voornamelijk gericht zijn op objectgeoriënteerde programmeerparadigma's (OOP). Ondanks zijn geavanceerde functies behoudt C++ de efficiëntie en kracht van C.

C# (C-Sharp)

C# (uitgesproken als "C-Sharp") is een objectgeoriënteerde programmeertaal ontwikkeld door Microsoft. Het is gebaseerd op C++ en heeft overeenkomsten met Java. De taal is ontwikkeld als onderdeel van het .NET-initiatief onder leiding van Anders Hejlsberg en zijn team. Het is geaccepteerd door zowel de European Association of Computer Manufacturers (ECMA) als de International Standards Organization (ISO).

Large Language Model (LLM)