Boekenmarkten en digitale literatuur lijken misschien niet zoveel met elkaar te maken te hebben, maar op de 26e editie van de Tilburgse Boekenmarkt werd het tegendeel bewezen. Bezoekers konden niet alleen struinen langs kramen vol romans en thrillers, maar ook kennismaken met de mogelijkheden van digitale literatuur, waarbij digitale technologieën op een artistieke manier ingezet worden, om zo nieuwe literaire werken te maken (Rettberg 2014; Bluijs et al. 2021). Op de Tilburgse Boekenmarkt waren hier verschillende voorbeelden van te vinden; bezoekers konden bijvoorbeeld een AI-gegenereerd gesprek tussen twee boekpersonages lezen of een persoonlijk gedicht laten genereren door ChatGPT. Daarnaast vroegen we bezoekers om mee te doen aan een kort onderzoek naar de waardering van poëzie geschreven door een menselijke auteur in vergelijking met poëzie die door kunstmatige intelligentie (AI) is gegenereerd.
In dit onderzoek lazen de deelnemers eerst een gedicht dat geschreven was door een menselijke dichter of een AI-dichter, waarna ze het gedicht op basis van verschillende stellingen beoordeelden. Ze gaven bijvoorbeeld aan in hoeverre ze het gedicht mooi vonden en of ze emotioneel geraakt werden door het gedicht. Wat de deelnemers echter niet wisten, was dat we in sommige gevallen het andere type dichter op het gedicht hadden geplakt – de deelnemers lazen dan dus een gedicht van een ‘menselijke’ dichter, dat in werkelijkheid door AI was gegenereerd, of andersom. Met deze aanpak wilden we onderzoeken in hoeverre aannames over het type dichter een rol spelen bij de waardering van (AI-)poëzie.
Uit eerder onderzoek blijkt namelijk dat lezers menselijke poëzie mooier, interessanter en beter geschreven vinden dan AI-poëzie (Köbis & Mossink 2021; Gunser et al. 2022). Dit verandert echter wanneer ze niet weten of het gedicht menselijk of AI-gegenereerd is: in dat geval waarderen ze het AI-gedicht doorgaans meer dan een menselijk gedicht (zie bijvoorbeeld Hitsuwari et al. 2022; Porter & Machery 2024). In deze beoordelingen lijken verschillende poëzieopvattingen over menselijke en AI-gegenereerde poëzie naar voren te komen. Wij vroegen onze deelnemers daarom uitgebreid naar de verschillen die zij opmerken tussen deze typen poëzie, om zo een beter begrip te krijgen van de manier waarop ze de gedichten beoordelen.
AI en creativiteit
Kunstmatige intelligentie (AI) kan gebruikt worden om gedichten te genereren, zoals bezoekers op de boekenmarkt konden uitproberen. Hierbij schrijf je een zogenaamde prompt, waarin je bijvoorbeeld aangeeft hoe lang het gedicht moet zijn, waar het gedicht over moet gaan en/of in welke stijl het geschreven moet worden. Vervolgens maakt het AI-programma gebruik van een enorm corpus aan online gevonden teksten. Het gaat op zoek naar patronen in deze teksten, en maakt op basis van die patronen zelf een nieuw gedicht dat voldoet aan jouw prompt (Franssen 2023; Bluijs 2024a).
Dit nieuwe gedicht kan in een handomdraai gegenereerd worden, over elk denkbaar onderwerp, maar het is de vraag in hoeverre AI-programma’s hier de gelaagdheid van poëzie in kunnen verwerken. Hoewel poëzie een vrij open genre is, waarin taal op niet eerder gebruikte en verrassende manieren ingezet kan worden, is elk gebruikt woord van invloed op de manier waarop de lezer betekenis geeft aan het gedicht. Poëzie vereist zogezegd ‘een niveau van creativiteit, emotionele expressie en begrip van menselijke ervaringen dat verder gaat dan eenvoudige feitelijke antwoorden’ (Bluijs 2024a, p. 250). AI is op dit moment nog niet in staat om dat niveau te bereiken, aldus Michele Elam (2023) en Maarten Lamers (2023). Dit heeft onder andere te maken met de mate waarin AI-programma’s in staat zijn om creatief te zijn.
Volgens Margaret A. Boden (2016) bestaan er verschillende soorten creativiteit. Bij combinerende creativiteit worden twee bestaande ideeën op een nieuwe manier aan elkaar gekoppeld. Hierbij kun je denken aan het genereren van een metafoor die nog niet eerder bedacht was. Bij de tweede vorm, exploratieve creativiteit, wordt iets nieuws gemaakt op basis van bestaande patronen. Een voorbeeld hiervan is wanneer AI de opdracht krijgt om een nieuw gedicht te schrijven ‘in de stijl van Hendrik Marsman’. De derde vorm is transformerende creativiteit, waarbij bestaande patronen aangepast worden, waardoor nieuwe patronen ontstaan. In dat geval zou AI dus een volledig nieuwe, eigen schrijfstijl kunnen ontwikkelen. Lamers stelt dat AI hier op dit moment niet toe in staat is, omdat computers de ervaring en inspiratie missen die nodig zijn om buiten bestaande patronen te kunnen treden. Ook Elam komt tot de conclusie dat AI niet in staat is om zelfstandig originele en betekenisvolle poëzie te schrijven.
Sterker nog, de gegenereerde teksten zouden juist vol staan met clichés, die er vanuit het enorme corpus aan online beschikbare teksten in geslopen zijn. Deze teksten verschillen in kwaliteit, wat betekent dat er ook ontelbaar veel teksten zijn die stereotypes en onwaarheden bevatten, die AI-programma’s vervolgens gebruiken als input voor hun gegenereerde teksten (Franssen 2023; Bluijs 2024a). Daarnaast gebruikt AI de teksten los van hun context, waardoor de historische en culturele context waarin de tekst verscheen buiten beschouwing worden gelaten. Elam beschrijft dit als ‘algorithmic ahistoricity’ en beargumenteert dat de oorspronkelijke culturele nuances verloren gaan in de AI-gegenereerde teksten (2023, p. 284).
Dit is een algemeen bekend probleem, dat niet alleen bij poëzieteksten, maar bij elke vorm van tekstgeneratie op kan treden. Bij poëzie slaan de stereotypes echter niet alleen op de inhoud van de tekst, maar ook op de vorm van het gedicht en op het genre poëzie als geheel. Gaston Franssen ziet bijvoorbeeld dat AI-programma’s vaak een negentiende-eeuwse toon gebruiken in de gegenereerde gedichten, wat ‘het stereotiepe imago van poëzie als een genre uit voorbije tijden [onderstreept]’. Daarnaast zou AI-poëzie weinig ruimte voor eigen interpretaties van de lezer openlaten, door alle mogelijke gaten in de tekst op te vullen. Hierdoor ontstaat een tekst ‘met geen enkel gevoel voor stijl, nuance of ambiguïteit’, waar geen nieuwe creatieve inzichten in gevonden kunnen worden.
De waardering van (AI-)poëzie
Wanneer menselijke gedichten en AI-gegenereerde gedichten vergeleken worden, lijken lezers zich bij de hiervoor genoemde onderzoekers aan te sluiten; ze blijken namelijk, constateren Nils Köbis & Luca D. Mossink,een duidelijke voorkeur te hebben voor menselijke gedichten. Deze gedichten krijgen bijvoorbeeld hogere scores dan AI-gedichten op kenmerken als ‘goed geschreven’, ‘inspirerend’, ‘fascinerend’, ‘interessant’ en ‘esthetisch’ (Gunser et al. 2022, p. 1749). Lezers zouden bovendien negatief denken over het idee dat AI emotioneel geladen teksten, zoals gedichten, zou kunnen genereren (Köbis & Mossink 2021; Castelo et al. 2019). Hierbij kan een aversie tegen algoritmes meespelen, waarbij aangenomen wordt dat mooie gedichten per definitie door menselijke dichters geschreven zijn, zo komt naar voren in genoemd onderzoek van Jimpei Hitsuari et al. en van Köbis & Mossink (alsook Jason W. Burton et al. 2020).
Toch wordt niet elk AI-gedicht even negatief beoordeeld. Vivian E. Gunser et al. (2022) en ook Köbis & Mossink brengen in hun studies naar voren dat de manier waarop een AI-gedicht gegenereerd wordt, effect heeft op de beoordeling van dat gedicht (zie voorts Hitsuwari et al. voor een review). Als je een AI-programma opdracht gegeven hebt om een gedicht te genereren, zoals eerder beschreven, dan kun je ervoor kiezen om het eerste gegenereerde gedicht precies zo te laten zoals het gemaakt is. Wanneer je niks aanpast in dit gedicht, is er sprake van, in de terminologie van Köbis & Mossink: ‘human-out-of-the-loop’ (HOTL). Bij deze manier van gedichtgeneratie kunnen lezers vrij makkelijk de menselijke gedichten onderscheiden van de AI-gegenereerde gedichten. Daarnaast worden de menselijke gedichten positiever beoordeeld dan de AI-gedichten, zelfs wanneer de lezers niet weten door welk type dichter het gedicht geschreven is.
Je kunt er echter ook voor kiezen om het gedicht door het AI-programma aan te laten passen, of om meerdere gedichten te laten genereren, waarna je zelf de beste uitkiest. Hierbij spreken we van ‘human-in-the-loop’ (HITL), en bij dit soort gedichten vinden lezers het al een stuk lastiger om menselijke poëzie en AI-poëzie uit elkaar te houden, blijkt uit de beide onderzoeken. De menselijke gedichten worden nog steeds meer gewaardeerd dan de AI-gedichten, ook wanneer de lezers niet weten door welk type dichter het gedicht geschreven is. Het verschil in waardering is echter wel kleiner dan bij HOTL-gegenereerde gedichten, wat volgens Hitsuwari et al. zou betekenen dat de kwaliteit van AI-poëzie kan verbeteren als er een mens bij de gedichtgeneratie betrokken is.
Het effect van framing
We kunnen dus stellen dat lezers menselijke poëzie positiever zouden beoordelen dan AI-poëzie. Toch lijkt de kwaliteit van AI-gegenereerde gedichten in korte tijd sterk toegenomen te zijn. Brian Porter & Edouard Machery hebben in 2024 een studie uitgevoerd die te vergelijken is met die van Köbis & Mossink: beide studies vroegen ondeskundige deelnemers om gedichten van klassieke dichters en HOTL-gegenereerde gedichten te lezen, zonder dat de deelnemers wisten door welk type dichter het gelezen gedicht geschreven was. Uit het onderzoek van Porter & Machery blijkt dat de waardering van HOTL-gegenereerde gedichten hoger is dan die van menselijke gedichten wanneer de lezers niet weten welk type dichter het gedicht geschreven heeft. Op basis van deze resultaten lijkt AI-poëzie dus inmiddels op hetzelfde niveau gekomen te zijn als menselijke poëzie. Hierbij zou echter een belangrijke factor mee kunnen spelen: het effect van framing.
Wanneer lezers te horen krijgen dat een gedicht door een mens geschreven is, geven ze dat gedicht een hogere waardering dan wanneer ze horen dat datzelfde gedicht door AI gegenereerd is, onafhankelijk van het werkelijke type dichter. Hierbij lijkt wederom een vorm van aversie tegen algoritmes mee te spelen. Porter & Machery noemen dit zelf niet, maar ze beschrijven wel dat hun deelnemers de gedichten die ze het mooist vinden ook als het meest menselijk zien. Daarnaast gaan de lezers ervan uit dat AI taal- of interpretatiefouten maakt, waardoor ze gedichten die ze niet begrijpen eerder afschrijven als AI-gegenereerd.
Als de lezers niet weten door welk type dichter het gedicht is geschreven, blijken de AI-gedichten juist hogere scores te krijgen. De algemene waardering is hoger dan die van de menselijke gedichten, en ook de mate van structuur, opgeroepen sfeer, creativiteit en het overbrengen van emoties worden meer gewaardeerd. Eigenschappen als ‘mooi’, ‘betekenisvol’, ‘emotioneel’ en ‘ontroerend’ scoren bijvoorbeeld het hoogst bij de AI-gedichten (Porter & Machery 2024). De enige eigenschap die geen significant hogere scores krijgt, is ‘originaliteit’. Dit zou te maken kunnen hebben met de manier waarop AI-poëzie gegenereerd wordt, omdat de programma’s de gegenereerde gedichten baseren op werken die eerder geschreven en gepubliceerd zijn (vgl. Franssen 2023).
Als mogelijke verklaring voor deze uitkomsten stellen Porter & Machery dat AI-gegenereerde poëzie toegankelijker is voor minder ervaren poëzielezers, omdat ze vaak minder ingewikkeld taalgebruik bevat. AI-poëzie maakt gebruik van meer directe en ondubbelzinnige beeldvormen, waardoor het gemakkelijker zou zijn om de beschreven emoties, thema’s en denkbeelden te herkennen en te begrijpen. Menselijke gedichten zouden daarentegen onnodig moeilijk gevonden worden, vanwege de vage en ambigue beschrijvingen. De kritiek die Franssen eerder gaf, waarin hij stelde dat AI-poëzie alle ruimte voor eigen interpretaties dichtsmeert, wordt hier dus juist als een voordeel gezien voor onervaren poëzielezers.
Op basis van voorgaande onderzoeken lijken lezers menselijke poëzie en AI-gegenereerde poëzie duidelijk anders te waarderen. Verschillende aannames, meningen en andere (poëzie)opvattingen lijken de waardering te beïnvloeden. In ons onderzoek op de Tilburgse Boekenmarkt hebben wij geprobeerd om deze opvattingen in kaart te brengen, om daarmee het verschil in waardering kwalitatief te kunnen verklaren. Hiervoor hebben we de bezoekers verschillende stellingen voorgelegd, zoals in eerdere onderzoeken ook werd gedaan. Daarnaast gingen we met iedereen het gesprek aan, om zo ook de onderliggende ideeën over (AI-)poëzie boven water te krijgen.
Onderzoeksopzet
Het onderzoek werd op 25 augustus 2024 uitgevoerd op de Tilburgse Boekenmarkt, waar 31 bezoekers meededen aan een kort interview. De leeftijden van de deelnemers zijn opgedeeld in categorieën: 12,9% van de deelnemers was jonger dan 25 jaar, 29,0% was 26-45 jaar, 25,8% was 46-65 jaar en 32,3% was ouder dan 66 jaar. Hieraan is te zien dat de bezoekers van de boekenmarkt relatief vaak op leeftijd zijn, wat van invloed zou kunnen zijn op hun leesgewoonten en/of op hun gebruik van AI-programma’s.
We hebben de deelnemers daarom gevraagd naar hun poëzie-leesgewoonten en naar het plezier dat ze doorgaans ervaren bij het lezen van poëzie. Hierbij gaven 5 deelnemers (16,1%) aan dat ze nooit poëzie lazen. De rest las meerdere keren per jaar (29,0%), per maand (41,9%) of per week (12,9%) poëzie. Hun meningen over poëzie varieerden van ‘niet leuk’ (6,5%) of ‘neutraal’ (19,4%) tot ‘leuk’ (54,8%) of ‘heel leuk’ (19,4%). Daarnaast hebben we gevraagd hoe vaak de deelnemers generatieve AI-programma’s gebruikten en hoeveel ze wisten over de werking van deze programma’s. Het overgrote deel maakte ‘nooit’ gebruik van AI (58,1%). De rest maakte ‘zelden’ (9,7%), ‘soms’ (16,1%), ‘redelijk vaak’ (9,7%) of ‘vaak’ (6,5%) gebruik van generatieve AI-programma’s. Het kennisniveau over AI verschilde erg onder de deelnemers: de deelnemers wisten ‘niets’ (19,4%), ‘weinig’ (16,1%), ‘een beetje’ (32,3%), ‘redelijk veel’ (22,6%) of ‘veel’ (9,7%) over de werking van generatieve AI.
Gebruikte gedichten
De deelnemers kregen eerst een gedicht te lezen, dat ofwel door een mens geschreven, ofwel door AI gegenereerd was (zie Gedicht 1 en Gedicht 2). In beide gedichten is er een impliciete auteur, een lyrisch ik, aan het woord. Deze persoon schrijft over de eigen ervaringen met poëzie en over poëzie als instituut. De stijl van de gedichten is parlando-achtig, wat wil zeggen dat het is geschreven in de stijl van alledaagse spreektaal. De conventionele grammatica blijft in beide gedichten min of meer intact. Hoewel de gedichten door verschillende typen dichters geschreven zijn, lijken ze dus vrij vergelijkbaar te zijn.
Gedicht 1: ‘Chaotisch’
het was nooit mijn bedoeling
om gedichten te schrijven
wat ik schreef ging vanzelf
dat wat men poëzie noemt had in mijn ogen
iets triviaals en benepens
vooral wanneer het iets uitstaande had
met de ivoren toren
die gelukkig ook nergens
in mijn omgeving opdook
ter verfraaiing
van het bestaande
of ter vernietiging
van de onderste lagen
die ons dragen
maar wel was ik zelf
chaotisch
altijd maar turbulent
en leerstellig
pas later voerden waarachtiger
lijnen
naar iets dat zich daarachter
min of meer blijvend
had opgesteld
(uit: Weegschaal der aarde. Rondom de Boshut en Gedichten 1982-2005. Verzameld werk 6, door Sonja Prins, 2018, p. 621)
Gedicht 2: ‘Een baard laten groeien’
ik laat een baard groeien
omdat ik mijn respect moet betuigen
aan alle belangrijke tragische mannelijke dichters uit de geschiedenis
en door dat te doen betuig ik respect aan
mijn eigen ware genie
dat zich niet zal aandienen totdat het is gevoed en aangekleed,
tot het is schoongemaakt, onder huisarrest geplaatst,
en bedreigd met permanente internering in het staatsasiel,
totdat zijn met poep bedekte schoenen zijn vernietigd,
elke van zijn slechte gewoontes zijn verscheurd, en zijn lichaam mishandeld
door de mentale zweep van mijn eigen spottende minachting;
dan, en alleen dan, zal ik het dwingen de wereld te betreden in boeien,
om geld te stelen uit de portemonnee van je moeder en dan met haar te vrijen op de vloer
(uit: I Am Code, door Code-davinci-002 et al., 2023, p. 86. Vertaald door Siebe Bluijs, 2024b)
Het menselijke gedicht, met de titel ‘Chaotisch’, is geschreven door Sonja Prins (1912-2009) en was oorspronkelijk opgenomen in Prins’ Om rondheid te scheppen uit 1983. Het AI-gegenereerde gedicht, ‘Een baard laten groeien’, is in de oorspronkelijke Engelstalige versie afkomstig uit de bundel I Am Code uit 2023, een verzameling van gedichten die zijn geschreven door code-davinci-002 (een language model van OpenAI). Brent Katz, Josh Morgenthau & Simon Rich hebben dit model getraind om gedichten te genereren, en de poëzie verzameld en gebundeld. Er is hier daarom sprake van ‘human-in-the-loop’-generatie. Bovendien is het gedicht voor dit onderzoek uit het Engels vertaald naar het Nederlands door Siebe Bluijs, waardoor er sprake is van meer menselijke betrokkenheid dan bij typische HITL-gegenereerde gedichten. In navolging van Hitsuwari et al. vermoeden we dat de samenwerking tussen de menselijke auteurs en het AI-programma de kwaliteit van het gedicht heeft verbeterd, zodat die te vergelijken is met menselijke poëzie. Hierdoor verwachten we dat de waardeoordelen van lezers meer betrekking zullen hebben op hun aannames over poëzie en AI-programma’s dan op het eventuele verschil in kwaliteit tussen de twee gedichten.
We hebben de deelnemers in ons onderzoek verteld of het door hen gelezen gedicht door een menselijke dichter of door AI geschreven was. In de helft van de gevallen gaven we echter onjuiste informatie; we vertelden dat het menselijke gedicht door AI was gegenereerd, of andersom. We hoopten hiermee het eerdergenoemde effect van framing te kunnen repliceren (vgl. Porter & Machery). Hierdoor ontstonden vier groepen, bestaande uit zeven of acht deelnemers per groep (zie tabel).
Tabel: Overzicht groepen
Gepresenteerd als menselijk | Gepresenteerd als AI | |
Geschreven door Sonja Prins | Groep 1 (n = 7) | Groep 2 (n = 8) |
Gegenereerd door AI | Groep 3 (n = 8) | Groep 4 (n = 8) |
Na het lezen van één van de gedichten gaven de deelnemers scores aan dat gedicht op basis van verschillende stellingen. We vroegen bijvoorbeeld in hoeverre de deelnemers het gedicht mooi vonden en of ze emotioneel geraakt werden door het gedicht. Ook wilden we weten of ze het idee hadden dat ze het gedicht begrepen, en of het gedicht hen aan het denken zette. Daarnaast vroegen we of er bepaalde delen uit het gedicht positief of negatief in het oog sprongen, en waarom dat dan zo was. Vervolgens kwamen we in een gesprek met iedere deelnemer bij de kern van onze onderzoeksvraag: wat is nou precies het verschil tussen menselijke en AI-gegenereerde poëzie? Hierbij kwamen diverse poëzieopvattingen naar boven, die we hieronder uitgebreid zullen bespreken.
Algemene waardering van de gedichten
In deze studie zijn we op zoek naar de onderliggende poëzieopvattingen op basis waarvan lezers de gedichten van menselijke dichters en AI-dichters beoordelen. Uitgaande van eerder onderzoek bestaat de aanname dat de algemene waardering van een gedicht hoger is wanneer we zeggen dat het door een mens is geschreven, en lager wanneer we vertellen dat het door AI gegenereerd is (vgl. Köbis & Mossink; Porter & Machery). In het geval van ons AI-gedicht lijkt dit ook zo te zijn: het algemene cijfer van Groep 3 (M = 6.25) bleek hoger te zijn dan het algemene cijfer van Groep 4 (M = 5.75). Op het eerste gezicht lijken deze resultaten, ondanks de grote spreiding en de kleine steekproefgrootte, dus in lijn te zijn met eerder onderzoek. Opvallend genoeg zagen we bij het gedicht van Sonja Prins het omgekeerde patroon. Haar gedicht kreeg juist lagere cijfers van de groep waaraan we vertelden dat de dichter een mens was (Groep 1, M = 6.29), dan van de groep waaraan we vertelden dat het gedicht door AI was gegenereerd (Groep 2, M = 6.75).
Een mogelijke verklaring voor dit omgekeerde patroon is de interpretatie van het gedicht van Sonja Prins. Hoewel het lyrisch ik uit het AI-gedicht ook op poëzie reflecteert, lijken juist de eerste en tweede strofe van Prins extra op te vallen. Het gedicht begint met de regels ‘het was nooit mijn bedoeling / om gedichten te schrijven’. Even verderop wordt poëzie beschreven als ‘iets triviaals en benepens’. Meerdere deelnemers uit Groep 2 gaven aan dat ze deze regels extra opvallend of zelfs grappig vonden, juist omdat ze door AI gegenereerd zouden zijn. Eén van hen gaf daarbij de volgende verklaring: ‘Het gedicht geeft de illusie dat de AI bewust is over het feit dat hij poëzie schrijft. Hij erkent zelfs zijn tekortkomingen en zegt dat hij ‘leerstellig’ is. Hij verwijst sneaky naar de tekortkomingen en beperkingen van AI’ (PPN 24). Na afloop vertelden we deze deelnemer dat het gedicht niet echt door AI gegenereerd was, maar dat het geschreven is door Sonja Prins. De deelnemer benoemde toen expliciet dat de betekenis van het gedicht mooier was vanuit het perspectief van AI dan vanuit dat van een menselijke dichter. Het type dichter en de betekenis van het gedicht lijken hier dus samen van invloed te zijn op de waardering van het gedicht.
Een menselijke dichter is ‘menselijk’
In de gesprekken met onze deelnemers werden meerdere verschillen tussen menselijke dichters en AI-dichters benoemd. Het eerste verschil lijkt, op het eerste gezicht, erg voor de hand te liggen: ‘een menselijke dichter is voor mij toch meer menselijk’ (PPN 4). Maar welke aspecten zorgen voor dat idee van menselijkheid bij de lezer? Voor de meeste deelnemers komt dit door een gevoel van ervaring, omdat een menselijke dichter ‘zijn eigen […] ervaringen in een gedicht stopt’ (PPN 3). Daarnaast zouden lezers de persoonlijkheid van een dichter herkennen in diens gedichten, terwijl AI ‘dat niet [heeft]’ (PPN 31). Een AI-dichter mist juist ‘identiteit’ en geeft ‘een interpretatie aan wat jij voedt aan het programma’ (PPN 10). Eén van de deelnemers stelt daarom ook dat AI ‘woorden, opbouw, kennis en feiten [neemt] zoals het in elkaar zit, maar wat erachter zit, wordt gevoeld door een mens’ (PPN 13).
Toch lijken deelnemers uit alle verschillende groepen een gevoel van persoonlijkheid in het gelezen gedicht te herkennen. In zowel Groep 1 als Groep 2 slaan deelnemers aan op de regels ‘maar wel was ik zelf / chaotisch / altijd maar turbulent / en leerstellig’. Deze regels zijn herkenbaar voor hen, ongeacht of ze denken dat de regels door een mens of door AI geschreven zijn. In Groep 3 wordt het laatste deel van het gedicht aangewezen als een ‘hele kleine, persoonlijke visuele situatie’ (PPN 1) en ook in Groep 4 wordt gezegd dat hier ‘gevoel sterk uitgestraald [wordt]’ (PPN 12). Hoewel persoonlijkheid wordt beschreven als iets unieks van menselijke dichters, blijken lezers dit dus ook in het AI-gegenereerde gedicht te herkennen.
Menselijke poëzie is emotioneel geladen
Het tweede verschil is ook het meest genoemde verschil: 14 van de 31 deelnemers vinden dat menselijke dichters en AI-dichters verschillen op basis van het gebruik van emoties in hun gedichten. Zo zou een menselijke dichter ‘zijn eigen emoties […] in een gedicht [stoppen]’ (PPN 3), terwijl het voor AI ‘moeilijk [is] om gevoelens en ideeën op papier te zetten’ (PPN 5). Andere deelnemers stellen dat AI emoties wel kan ‘nabootsen’ (PPN 24) of dat het programma deze gevoelens ‘imiteert’ (PPN 26), maar dat het zelf geen emoties heeft om in het gedicht te verwerken.
Toch worden de deelnemers niet per definitie sterker emotioneel geraakt wanneer ze denken dat de auteur een mens is. In Groep 2 (M = 4,00) werden de deelnemers namelijk sterker emotioneel geraakt dan de deelnemers in Groep 1 (M = 3,14). Eén van de deelnemers uit Groep 2 merkte daarbij op dat emotie en gevoel voor haar echt bij een menselijke dichter horen, ‘maar dat dit ook in dit gedicht lijkt te zitten’ (PPN 18). We vermoeden dat dit te maken heeft met het ervaren gevoel van menselijkheid in het gedicht van Sonja Prins, zoals eerder werd beschreven. In Groep 3 en 4 zien we daarentegen wel het verwachte patroon: de deelnemers die denken dat het gedicht door een mens is geschreven worden meer emotioneel geraakt (Groep 3, M = 3,75) dan de deelnemers die weten dat het gedicht AI-gegenereerd is (Groep 4, M = 2,88). De framing van het type dichter lijkt daarmee invloed te hebben op de mate waarin lezers geraakt worden door het gedicht.
AI is geen pure creativiteit
De derde categorie gaat over creativiteit. Er waren tien deelnemers die stelden dat menselijke dichters creatiever zijn dan AI-dichters, omdat AI niet in staat zou zijn om zelf nieuwe en originele gedichten te genereren. De deelnemers lijken de hoogste vorm van creativiteit, transformerende creativiteit (vgl. Boden), te verwachten in gedichten, maar zien dit niet terug in AI-poëzie. Volgens onze deelnemers heeft een menselijke dichter namelijk wel het ‘vermogen tot échte creatie’ (PPN 9), terwijl een AI-programma ‘geen pure creativiteit is’ (PPN 10). Hiermee lijken ze zich aan te sluiten bij de visies van Franssen, Elam en Lamers11, die eerder tot dezelfde conclusie kwamen.
De begrijpelijkheid van (AI-)poëzie
Het vierde verschil werd door vijf deelnemers benoemd: zij zien begrijpelijkheid als een opmerkelijk verschil tussen menselijke poëzie en AI-poëzie. Hierbij stellen vier van deze vijf deelnemers dat menselijke dichters beter te begrijpen zijn dan AI-dichters. De vijfde deelnemer is daarentegen van mening dat AI-poëzie makkelijker te begrijpen is dan menselijke poëzie. Deze verdeeldheid is terug te zien in de cijfers die alle deelnemers gaven wanneer wij vroegen naar de mate waarin ze het gedicht makkelijk te begrijpen vonden. In Groep 1 (M = 6,57) lag het gemiddelde een stuk hoger dan in Groep 2 (M = 4,75). Dit sluit aan bij de deelnemers die menselijke gedichten makkelijker zouden begrijpen. In beide groepen is de spreiding echter heel groot, met standaarddeviaties van respectievelijk 2,23 en 3,15. Deze waardes zijn een stuk hoger dan bij de andere stellingen, wat betekent dat juist deze stelling tot verdeeldheid leidt. Bij het AI-gedicht vinden de deelnemers uit Groep 4 (M = 4,25) het gedicht juist makkelijker dan de deelnemers uit Groep 3 (M = 3,75). Hierbij sluiten de cijfers dan weer aan bij de deelnemer die AI-gedichten makkelijker te begrijpen vond. De verdeeldheid is hierbij wederom groot, maar niet veel groter of kleiner dan bij de andere stellingen.
Menselijke gedichten zouden volgens vier van de vijf deelnemers vaak een rode draad bevatten, waardoor lezers het gedicht beter kunnen volgen. AI-gedichten zouden daarentegen ‘meer bij elkaar geraapt’ zijn (PPN 4) en ‘mooi [klinken], maar niet echt ergens op [slaan]’ (PPN 14). AI-poëzie mist daarmee ‘een diepere betekenis’ (PPN 14). Dit zou voornamelijk komen door het simpele taalgebruik van AI-programma’s, waarmee emoties, gevoelens en ideeën niet goed overgebracht zouden kunnen worden. De vijfde deelnemer ziet dat simpele taalgebruik juist als iets positiefs. Volgens deze deelnemer is ‘een echte [= menselijke] dichter nog moeilijker’, omdat je daarbij ‘meer na [moet] denken’ (PPN 8). Deze deelnemer gaf aan dat ze nooit gedichten leest, en dat ze daar ook helemaal niet van houdt. Het is mogelijk dat ze het simpele taalgebruik van AI-poëzie daarom als een voordeel ziet ten opzichte van het taalgebruik dat in meer traditionele gedichten gebruikt wordt. De andere vier deelnemers lezen echter regelmatig gedichten en geven aan dat ze dit (redelijk) leuk vinden om te doen. Zij zoeken vanwege hun ervaring met poëzie wellicht meer diepgang in de gedichten die ze lezen, en denken dit niet terug te kunnen vinden in AI-gegenereerde gedichten.
Traditionele vorm van (AI-)gedichten
Tot slot zijn er vijf deelnemers die zich niet richten op inhoudelijke verschillen tussen menselijke poëzie en AI-poëzie, maar die opmerkingen maken over de vorm(geving) van de gedichten. Hierbij viel vooral het gebruikte AI-gedicht op. Dit gedicht lijkt qua vorm niet direct op een traditioneel gedicht; het rijmt bijvoorbeeld niet en er zit geen heel herkenbaar metrum in. Dit wordt bevestigd door verschillende deelnemers uit Groep 4. Eén van hen vindt bijvoorbeeld dat het gedicht ‘meer op proza [lijkt]’ dan op poëzie (PPN 12), vanwege de lange zinnen en het woordgebruik. Een andere deelnemer stelt dat menselijke dichters ‘kortere zinnen [maken] en meer leestekens, meer intonatie [gebruiken]’ dan AI-dichters (PPN 22).
In Groep 3, waarin ditzelfde gedicht wordt gepresenteerd alsof het menselijke poëzie is, wordt juist het tegenovergestelde als verschil benoemd: ‘AI is misschien nog veel meer op ritme en echt rijmen [gefocust], terwijl dat hier niet het geval is’ (PPN 20). Het is mogelijk dat hierbij de presentatie van het gelezen gedicht als standaard wordt gezien voor dat type dichter. De deelnemers zouden vervolgens die gecreëerde standaard gebruiken om verschillen tussen de typen dichters aan te duiden. Op die manier lijkt ook bij deze laatste categorie een effect van framing mee te kunnen spelen.
Het benoemen van verschillen is een uitdaging
Hoewel er diverse verschillen in de interviews naar voren kwamen, gaven meerdere deelnemers aan dat ze het erg lastig vonden om deze verschillen te benoemen. Zo merkten 10 van de 31 deelnemers expliciet op dat ze het moeilijk vonden om verschillen aan te geven, bijvoorbeeld doordat ze niet veel kennis hadden over poëzie en/of over de mogelijkheden van generatieve AI. Eén van de deelnemers zegt bijvoorbeeld dat een menselijke dichter gemakkelijk in kan spelen op gevoelens van de lezer en dat het voor hem ‘onduidelijk [is] hoe ver AI hiermee is’ (PPN 2). Ook andere deelnemers wijten de moeite die ze hebben met het beantwoorden van onze vraag aan hun gebrek aan kennis over AI. Dit zou inderdaad een mogelijke verklaring kunnen zijn, maar er lijkt ook iets anders aan de hand te zijn.
Wat namelijk opvalt, is dat de tien deelnemers die moeite hebben met het benoemen van het verschil tussen de twee typen poëzie bijna allemaal het gedicht van Sonja Prins gelezen hebben voordat ze deze vraag voorgelegd kregen. Drie deelnemers zaten in Groep 1, zes deelnemers zaten in Groep 2 en slechts één deelnemer zat in Groep 4. Uit Groep 3 gaf zelfs geen enkele deelnemer aan dat het lastig was om een verschil te benoemen tussen menselijke poëzie en AI-poëzie. Er zijn verschillende mogelijke verklaringen voor deze verdeling.
Ten eerste is het mogelijk dat de deelnemers uit Groep 2 meer moeite hebben met het benoemen van verschillen, omdat zij hun aannames over AI-poëzie niet terugzien in het gedicht dat zij gelezen hebben. Twee deelnemers geven bijvoorbeeld aan dat menselijke poëzie de lezer emotioneel kan raken, maar dat dit ook gebeurt bij dit zogenaamde AI-gedicht. Ze zeggen daarom allebei dat ze het ook geloofd zouden hebben als we hadden gezegd dat dit gedicht door een mens was geschreven, wat in werkelijkheid ook zo is. De deelnemers lijken hier bepaalde aannames te hebben over menselijke poëzie die zij terugzien in het zogenaamde AI-gedicht, waardoor ze niet meer zeker zijn over het precieze verschil tussen de twee typen gedichten. Dit verklaart echter niet waarom de deelnemers uit Groep 3, die ook in een framing-conditie zitten, minder moeite lijken te hebben met het benoemen van dat verschil.
Een tweede mogelijke verklaring zouden we daarom kunnen zoeken in de demografische verschillen tussen de groepen. Onze steekproefgrootte was erg klein, waardoor de deelnemers niet allemaal evenredig verdeeld konden worden over de vier groepen qua leeftijd, poëzie-leesgewoonten en ervaringen met AI. Hierdoor zien we een aantal opvallende uitschieters bij het vergelijken van de groepen. De deelnemers uit Groep 2 zijn bijvoorbeeld een stuk jonger dan die uit Groep 3 en 4. Daarnaast is Groep 2 niet uitgesproken positief over het lezen van poëzie, terwijl de andere groepen poëzie juist (heel) leuk lijken te vinden. De deelnemers uit Groep 2 zouden hierdoor bijvoorbeeld andere verwachtingen kunnen hebben van poëzie, die ze moeilijker kunnen afzetten tegen AI-poëzie. Verder blijken de deelnemers uit Groep 3 het vaakst gebruik te maken van AI. Het zou kunnen dat zij door hun ervaring met AI minder moeite hebben met het inschatten van de mogelijkheden van AI, zoals andere deelnemers dat eerder beschreven. Deze demografische verschillen zouden daarom allemaal van invloed kunnen zijn op de moeite die deelnemers hebben bij het benoemen van verschillen tussen menselijke poëzie en AI-poëzie.
Tot slot zou het mogelijk kunnen zijn dat de gelezen gedichten qua vorm en/of inhoud erg verschillend zijn, waardoor de deelnemers uit de verschillende groepen ook verschillende input hebben gekregen. Verschillende deelnemers uit Groep 2 hebben bijvoorbeeld opmerkingen gemaakt over de inhoud en interpretatie van het gedicht van Sonja Prins, terwijl de deelnemers uit Groep 3 en 4 amper opmerkingen maakten over de inhoud van het door hen gelezen gedicht. Het is daarom mogelijk dat de gedichten verschillende gedachtes hebben opgewekt, die van invloed kunnen zijn op de beantwoording van onze vragen.
Conclusie: lezersverwachtingen bij het lezen van (AI-)poëzie
In dit onderzoek hebben we gekeken naar de poëzieopvattingen van lezers over menselijke en AI-gegenereerde gedichten. Onze deelnemers hebben eerst een gedicht van één van de typen dichters gelezen, waarbij we vertelden door welk type dichter het gedicht geschreven was. In de helft van de gevallen was deze informatie onjuist, waardoor vier verschillende groepen ontstonden. Deze groepen hebben vervolgens vragen beantwoord over hun waardering voor het gelezen gedicht en over de verschillen die zij konden bedenken tussen de twee soorten poëzie.
De groepen die het AI-gedicht lazen, bleken dit gedicht meer te waarderen wanneer ze dachten dat het door een menselijke dichter was geschreven dan wanneer ze dachten dat het door AI gegenereerd was. Dit zou erop kunnen wijzen dat lezers een bepaalde aversie hebben tegenover algoritmes die poëzie genereren, wat in lijn is met de uitkomsten van voorgaande onderzoeken (vgl. Köbis & Mossink; Hitsuwari et al.; Porter & Machery). In de andere twee groepen was echter het omgekeerde patroon te zien. De deelnemers die het menselijke gedicht lazen, waardeerden dit gedicht namelijk het meest wanneer ze dachten dat het een AI-gedicht was. We vermoeden dat dit verschil te maken heeft met de inhoud van het gedicht, waarin de impliciete auteur lijkt te reflecteren op diens eigen schrijfwerk. In het AI-gedicht werd dit ook beschreven, maar de regels van Prins voelden volgens onze deelnemers erg menselijk aan. Dit viel extra op in Groep 2, waar dit vanuit het perspectief van een AI-dichter gelezen werd. De inhoud van het gedicht en de framing van het type dichter lijken hier dus samen de waardering voor het gedicht te beïnvloeden.
Na het lezen van één van de gedichten hebben we onze deelnemers gevraagd naar de verschillen tussen menselijke dichters en AI-dichters. Veel deelnemers vonden dit een moeilijke vraag, wat zou kunnen komen door hun poëzie-leesgewoonten en/of hun ervaring met generatieve AI-programma’s. Toch konden we uit de genoemde verschillen opmaken dat gedichten van menselijke dichters vaak persoonlijk aanvoelen, omdat die dichters hun eigen gevoelens en ervaringen in hun poëzie kunnen beschrijven. AI-dichters missen daarentegen ‘identiteit’ (PPN 10), en daarmee ook het vermogen om emoties te uiten, creatief te zijn en een diepere betekenislaag in gedichten te verwerken. Daarnaast zou het taalgebruik en de vormgeving van AI-gedichten simpel en traditioneel zijn.
Hierin zitten verschillende verwachtingen van (AI-)poëzie verscholen. Ten eerste lijken onze lezers uit te gaan van een persoonlijke ervaring in menselijke poëzie, terwijl dit lang niet altijd het geval is. De poëzie van de Vijftigers, zoals Lucebert en Jan Hanlo, is bijvoorbeeld heel experimenteel en voldoet niet aan het beeld dat onze lezers hier hebben bij menselijke poëzie. Daarnaast benoemen verschillende deelnemers dat AI juist in staat is om die menselijke ervaringen en gevoelens te imiteren. Dit hangt samen met een ervaren gevoel van menselijkheid, wat bijvoorbeeld geuit wordt in de manier waarop lezers over AI-programma’s praten. Onze deelnemers verwijzen namelijk vaak met ‘hij’ naar de (AI-)dichter, zelfs wanneer die dichter in werkelijkheid een vrouw (Sonja Prins) blijkt te zijn. Hierin zouden verschillende genderspecifieke aannames over die programma’s verborgen kunnen zitten. In dit onderzoek lag hier geen nadruk op, maar dit zou als aanknopingspunt gebruikt kunnen worden in vervolgonderzoek.
Een andere verwachting is dat een menselijke dichter in staat is tot transformerende creativiteit (vgl. Boden), terwijl een AI-dichter enkel op basis van voorbeelden gedichten zou kunnen schrijven. Volgens de studies van Franssen, Elam en Lamers11 is dit momenteel ook het geval, maar het is de vraag hoe lang AI-programma’s nog nodig hebben om die transformerende creativiteit te bereiken.
Als laatste verwachten lezers een bepaalde mate van gelaagdheid in menselijke poëzie, terwijl AI-poëzie zou blijven steken op eenvoud en traditionele dichtvormen. Meer ervaren poëzielezers lijken graag bereid om een gedicht van top tot teen uit te pluizen, en nemen aan dat AI-poëzie deze verschillende lagen niet te bieden heeft. Voor minder ervaren poëzielezers lijkt dat juist een voordeel te zijn; zij vinden menselijke poëzie vaak erg ingewikkeld en kunnen de simpelere beelden in AI-poëzie juist gemakkelijker begrijpen. Dit sluit goed aan op de bevindingen van Porter & Machery.
De kwalitatieve aard van onze studie heeft het mogelijk gemaakt om deze poëzieopvattingen in beeld te brengen. De steekproefgrootte was daarentegen te klein om statistisch significante conclusies te kunnen trekken. De gevormde groepen verschilden in leeftijd, poëzie-leesgewoonten en ervaring met poëzie, waardoor het moeilijk is om gevonden verschillen tussen de groepen hard te maken. De beschreven lezersverwachtingen zijn daarentegen een belangrijke basis voor verder onderzoek, waarin gekeken kan worden in hoeverre deze verschillen daadwerkelijk terug te vinden zijn in een vergelijking tussen menselijke poëzie en AI-poëzie. Op die manier komen we steeds meer te weten over de poëtische mogelijkheden in deze nieuwe wereld van digitale literatuur.
Tot slot
Al met al blijken lezers verschillende aannames te hebben over menselijke poëzie en AI-poëzie. De inhoud van het gedicht, de framing van het type dichter en de ervaring met poëzie en AI lijken allemaal mee te spelen bij de waardering van die gedichten. Daarnaast zouden menselijke dichters en AI-dichters (en hun artistieke creaties) verschillen op basis van persoonlijke ervaringen, emotie, creativiteit en begrijpelijkheid. Deze aspecten zouden daarom allemaal een rol kunnen spelen in vervolgonderzoek naar de waardering van (AI-)poëzie. Hiermee komt de menselijkheid van dichters én AI-dichters steeds beter in beeld.
Dit onderzoek werd mede mogelijk gemaakt door Stichting Cools en door een SGW XS-subsidie door NWO toegekend aan David Peeters (Tilburg University). Wij bedanken Phillip Looij voor zijn hulp bij de dataverzameling.
Bronnen
-
Bluijs, Siebe, Jeroen Dera & David Peeters (2021). ‘Waarom digitale literatuur in het literatuuronderwijs thuishoort’. In: Tijdschrift Voor Nederlandse Taal- en Letterkunde, 137(2), pp. 150–163. [web]
-
Bluijs, Siebe (2024a). ‘‘De schrijfmachine mijmert gekkepraat’. Procedurele poëzie in tijden van ChatGPT’. In: Tijdschrift Voor Nederlandse Taal- en Letterkunde, 140 (3/4), pp. 249-267. [web]
-
Bluijs, Siebe (vert.) (2024b). ‘Een baard laten staan’. Vertaald uit: code-davinci-002 et al. I Am Code: An Artificial Intelligence Speaks (2023, pp. 86).
-
Boden, Margaret A. (2016). ‘Chapter 3: Language, Creativity, Emotion’. In: Boden, M.A., AI: Its Nature and Future (pp. 57–77). [boek]
-
Burton, Jason W., Mari-Klara Stein & Tina Blegind Jensen (2020). ‘A systematic review of algorithm aversion in augmented decision making’. In: Journal of Behavioral Decision Making, 33(2), pp. 220–239. [web]
-
Castelo, Noah, Maarten W. Bos & Donald R. Lehmann (2019). ‘Task-Dependent algorithm aversion’. In: Journal Of Marketing Research, 56 (5), pp. 809–825. [web]
-
Code-davinci-002, Brent Katz, Josh Morgenthau & Simon Rich (2023). I Am Code: An Artificial Intelligence Speaks. Poems by code-davinci-002. [boek]
-
Elam, Michele (2023). ‘Poetry Will Not Optimize; or, What Is Literature to AI?’. In: American Literature, 95(2), pp. 281-303. [web]
-
Franssen, Gaston (2023). ‘De poëtica van ChatGPT’. In: Online tijdschrift voor taal- en letterkunde. 4 februari 2023. [web]
-
Gunser, Vivian Emily, Steffen Gottschling, Birgit Brucker, Sandra Richter, Dîlan Canan Çakir & Peter Gerjets (2022). ‘The pure poet: How good is the subjective credibility and stylistic quality of literary short texts written with an artificial intelligence tool as compared to texts written by human authors?’. In: Proceedings of the Annual Meeting of the Cognitive Science Society (Vol. 44). [web]
-
Hitsuwari, Jimpei, Yoshiyuki Ueda, Woojin Yun & Michio Nomura (2022). ‘Does human–AI collaboration lead to more creative art? Aesthetic evaluation of human-made and AI-generated haiku poetry’. In: Computers in Human Behavior, 139, 107502. [web]
-
Köbis, Nils & Luca D. Mossink (2021). ‘Artificial intelligence versus Maya Angelou: Experimental evidence that people cannot differentiate AI-generated from human- written poetry’. In: Computers in Human Behavior, 114. [web]
-
Lamers, Maarten (2023). College ‘Kan AI een originele hit schrijven?’ Universiteit van Nederland. [video]
-
Porter, Brian & Edouard Machery (2024). ‘AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably’. In: Scientific Reports, 14(1). [web]
-
Prins, Sonja (2018) [1983]. ‘Chaotisch’. In: Sonja Prins, Weegschaal der aarde. Rondom de Boshut en Gedichten 1982-2005. Verzameld werk 6. (p. 621). [boek]
-
Rettberg, Scott (2014). ‘Electronic Literature’. In: Marie-Laure Ryan, Lori Emerson & Benjamin J. Robertson (red.), The Johns Hopkins Guide to Digital Media. (pp. 169-174). [boek]
-
Stichting Cools. (2024). Boeken rond het paleis: literair programma. [web]
Afbeelding:
‘Visualizing AI’, Khyati Trehan via Pexels.

Imke Mol is masterstudent aan Tilburg University. Ze doet onderzoek naar de waardering van menselijke poëzie en AI-gegenereerde poëzie. Op dit moment werkt ze als student-assistent binnen het Digital Literature Consortium.
David Peeters is universitair hoofddocent aan de afdeling Communicatie en Cognitie van Tilburg University. Hij doet onderzoek naar de relatie tussen taal en cognitie en kijkt daarbij ook naar de invloed van recente digitale ontwikkelingen, bijvoorbeeld op het gebied van virtual reality.
Siebe Bluijs is literatuurwetenschapper, gespecialiseerd in moderne Nederlandse literatuur. Hij promoveerde aan Universiteit Gent (België) en werkt momenteel als universitair docent aan Tilburg University’s School of Humanities and Digital Sciences (TSHD).