ChatGPT kan veel. Zonder moeite produceert de chatbot complete artikelen over uiteenlopende onderwerpen. Maar hoe goed kan ChatGPT eigenlijk een mens nadoen? Zijn wij mensen in staat om het verschil te herkennen tussen een robot en een echt persoon? Ik zocht het uit. Spoiler: met een gemiddelde score van 54% slaagt de mens niet voor de herken-de-chatbottest.
De Turingtest
Het principe van mijn onderzoek is niet nieuw. Computerwetenschapper en wiskunde Alan Turing bedacht in 1950 de Turingtest: een methode om te onderzoeken of een robot een mens kan nadoen. De Turingtest werkt door een panel van mensen verschillende teksten te laten zien. Sommige teksten zijn geschreven door een robot, sommige door een persoon. Als het panel niet in staat is de menselijke teksten te herkennen, slaagt de computer voor de Turingtest.
Opzet van mijn onderzoek
Stap 1 was het aanleggen van een database met teksten. Het is gemakkelijk om ChatGPT een groot aantal teksten te laten genereren. Maar waar vind ik een berg met menselijke input? Ik wilde niet à la ChatGPT het halve internet scrapen of internationale copyrightwetten schenden door videointerviews met mensen uit te typen. Daarom ging ik naar Wikipedia. Van Wikipedia’s discussiepagina over ‘het neutrale standpunt van Wikipedia’ trok ik een vijftal citaten. Vervolgens gaf ik ChatGPT te opdracht om vijf andere citaten te verzinnen, die in de discussie zouden passen.
Verspreid onder de CC BY-SA 4.0 licentie.
Policy should be descriptive not imperative so we must not be writing instructions for people.
Wrt algorithmic, yes the text is obviously algorithmic and I’ve seen over many years on Wikipedia and Commons that there are some editors who it seems can’t get out of bed and brush their teeth in the morning without a script to guide them. So we end up with instructions appearing here and there that were someone’s bright idea at the time but don’t really stand up to scrutiny as reflecting actual editing practice or solving general problems.
You’re all getting into the weeds and mixing subjects together that don’t belong together. The solution, as proposed in the next section, is to deal with them separately. Pseudoscientific topics are fringe topics, but not the other way around. Instead of wasting a lot of time and effort to explain that, just deal with pseudoscience as a subcategory (in its own section) of fringe theories.
Proposal: Generally, do not remove sourced information from the encyclopedia solely because it seems biased. In this case, remove material only when you have a good reason to believe it misinforms or misleads readers in ways that cannot be addressed by rewriting the passage.
You think it’s legitimate to make sarcastic edits to core policy pages? This is an increasingly bizarre exchange. I can assure you: I am trying to clarify things straight & in good faith. It is clear, anyway, what text you you think is good from your repeated reversions. It’s not good.
I understand the importance of maintaining a neutral point of view, but we must also consider the challenges of achieving complete neutrality. It’s crucial to strike a balance that allows for diverse perspectives while avoiding undue bias. Let’s encourage editors to provide well-sourced information and present it in a fair and balanced manner, fostering a space for respectful discourse.
While I appreciate the intention behind providing guidelines, we need to be cautious about overregulating and stifling editors’ creativity. The neutral point of view should be a guiding principle, but we should trust experienced contributors to exercise their judgment within reasonable bounds. Let’s focus on empowering editors with knowledge and resources to make informed decisions, rather than imposing rigid rules.
The concept of neutrality can be subjective, and we should be mindful of cultural, political, and historical contexts. It’s important to acknowledge that different topics may require different approaches to neutrality. Instead of trying to apply a one-size-fits-all solution, let’s encourage editors to engage in open discussions and strive for a balanced representation of information while respecting the nuances of each subject.
We should remember that neutrality doesn’t imply giving equal weight to all viewpoints, especially when it comes to fringe or pseudoscientific topics. Our focus should be on representing information based on reliable sources and established consensus within the relevant academic or scientific communities. Let’s ensure that neutrality is achieved through a rigorous and evidence-based approach, rather than succumbing to undue influence from fringe views.
I’ve observed instances where certain instructions or guidelines don’t align with the actual editing practices on Wikipedia. It’s important to critically evaluate the efficacy of these instructions and ensure they accurately reflect the community’s editing norms. Let’s focus on refining our guidance to better serve editors and enhance the overall quality and neutrality of Wikipedia’s content.
Open source tool
Stap 1 geslaagd. Ik heb een database met teksten. Maar daarmee ben ik er nog niet. Voor stap 2 ontwikkelde ik, from scratch, een open source tool om de verschillende zinnen te presenteren aan de rest van het internet. De tool pakt willekeurig vijf tekstjes uit de database (bestaande uit vijf ChatGPT-zinnen en vijf Wikipedia-zinnen) en toont deze, een voor een, aan iedereen die de tool opent. De gebruiker van de tool kiest vervolgens per zin of deze door een robot of een mens is geschreven.
Resultaten
Ik verzamelde gedurende 2 weken 111 responses van 28 personen. Gemiddeld zijn dit 3,96 responses per persoon. In totaal kreeg 54% van de stellingen het juiste ‘labeltje’ (robot/mens). Niet iedere vraag werd even goed gemaakt. Het zinnetje “While I appreciate…” (van ChatGPT) scoorde de meeste correcte antwoorden (71%) en het zinnetje “The concept…” (ook van ChatGPT) scoorde de minste correcte antwoorden (36%). Een compleet overzicht vind je hieronder.
Nu denk je misschien: een gemiddelde score van 54%, nou, dat nog altijd meer dan de helft. Zo slecht doen mensen het dus niet.
Maar dat is helaas niet hoe het werkt. Bij dit soort testen geldt niet ‘hoe lager hoe slechter’. In plaats daarvan geldt: ‘hoe dichter bij de 50%, hoe slechter’. Dat kan ik uitleggen met een voorbeeld. Stel, Bert scoort 10%. Klinkt slecht, maar als we precies het omgekeerde doen van wat Bert zegt, komen we op 90% uit. En dat is dan weer heel goed. Een score van 50% kunnen we niet omkeren: in dat geval kunnen we net zo goed een muntje opgooien, want dat geeft ons evenveel informatie. Kortom, 54% is een matige score.
ChatGPT-detectoren
Met de komst van ChatGPT schieten de ChatGPT-detectoren als paddenstoelen uit de grond. Detectoren zijn programma’s, websites, of andersoortige stukjes software die claimen werk van ChatGPT te kunnen herkennen. Ik haalde de database met zinnen langs 14 verschillende detectoren. Door puur toeval verzamelde ik daarmee precies 111 responses door computerprogramma’s (evenveel als het aantal menselijke antwoorden). De gemiddelde score van de detectoren is maar liefst 70,3%.
Twee dingen vallen op:
- Sommige detectoren presteren zeer goed, zoals Copyleaks en SEO.ai. Scribbr en ChatGPTdetector bakken er niets van.
- Niet iedere detector is bereid om elke zin te behandelen. Het vaakst komt dit door te korte zinnen, bijvoorbeeld bij de OpenAI tekst classifier van OpenAI zelf (!), maar soms geeft een detector aan niet met zekerheid te kunnen stellen wat de bron is.
Resultaten
Er valt genoeg te tornen aan dit onderzoek. Maar het was dan ook nooit mijn bedoeling om sluitend wetenschappelijk bewijs te leveren. Food for thought is voldoende. Pseudo-science is oké. Sinds de start van mijn onderzoek is er namelijk écht wetenschappelijk onderzoek naar de menselijkheid van ChatGPT gedaan. Onderzoekers van de New York University vonden een gemiddelde Turingtest-score van zo’n 65%.
Ondanks mijn pseudowetenschappelijke aanpak is het toch goed om te kijken naar waar mijn onderzoek tekort schiet. De grootste zwakte van mijn onderzoek is de doelgroep. Ik onderzocht eigenlijk of een volger van Stach de berichten van ChatGPT kan herkennen, en niet of ‘een gemiddeld persoon’ dit kan.
En tja, jullie zijn mijn fans. Dus natuurlijk prijs ik jullie de hemel in. Maar als we naar de feiten kijken, dan zijn mijn volgers:
- WEIRD (Western, Educated, Industrialized, Rich, and Democratic);
- In het bezit van een internetverbinding;
- Voldoende bekwaam in de Engelse taal om zich door mijn instructie en tool te werken;
- Enigszins geïnteresseerd in digitale technologieën.
En dit zorgt voor een bevooroordeelde groep proefpersonen. Dat is stiekem juist heel prettig. Ik vind het interessanter om te weten hoe goed mensen met interesse voor technologie in staat zijn ChatGPT te herkennen, in plaats van hoe goed een gemiddelde mens hierin is.
Leuke anekdote. Terwijl ik dit typ, vertel ik mijn verhaal aan een vrouw die naast me is komen zitten in de trein. Ze is 50, werkt in de thuiszorg, en voor haar is de grootste robotische vinding van de laatste tijd een lift die gevallen mensen weer omhoog kan helpen. Ze heeft nog nooit van ChatGPT gehoord. Kun je nagaan als deze mevrouw – een doorsnee Nederlander – had deelgenomen aan mijn experiment. Dan hadden de resultaten misschien wel op die 50% gezeten.
Conclusie
Volgers van Stach zijn niet tot nauwelijks in staat om ChatGPT van een mens te onderscheiden. Dit testte ik met een zelfontwikkelde, open source ChatGPT-Turingtest. Ik verzamelde gedurende 2 weken 111 responses van 28 personen. Het aantal correcte antwoorden is 54%. Reden genoeg om iedereen naar een spot-de-chatbottraining te sturen. Of om gewoon iedereen een fatsoenlijke ChatGPT-detector cadeau te doen. Dat werkt immers ook.
Disclosure
Stach Redeker is niet verwant met OpenAI, ChatGPT, of andere dienstverleners genoemd in dit artikel.