Gisteren, op 14 februari 2019, maakte de organisatie OpenAI op zijn blog bekend dat zij een taalmodel (lees computer) hebben getraind om coherente, zinvolle tekst te genereren, te begrijpen, te vertalen en samen te vatten. En dat alleen maar door het systeem te voeden met rond de veertig gigabyte aan internet-teksten.
Het systeem heet GPT2 (Generative Pre-Training, versie 2) en is volgens de ontwikkelaars zo krachtig dat zij het niet vrij durven te geven: “Due to our concerns about malicious applications of the technology, we are not releasing the trained model. As an experiment in responsible disclosure, we are instead releasing a much smaller model”.
Statistiek in plaats van theorie
Systemen die natuurlijke taal succesvol verwerken, opereren allang niet meer vanuit taalkundige modellen. Het is statistiek wat de klok slaat. Dus geen theorie, maar big data als uitgangspunt. Analyseer immense hoeveelheden tekst en voorspel daarmee wat de volgende zinvolle zin is, hoe een vertaling van een zin moet luiden, welke schrijfwijze hoort bij een reeks spraakklanken…
Door deze aanpak – machine learning – konden algoritmes als Deep Blue en Deep Mind wereldkampioen schaken en go worden, kan de spraakherkenner van Google Docs dictaten opnemen, kan de automatische tekstgenerator van OpenAI levensechte teksten produceren, én begrijpen.
Prestaties in plaats van inzicht
En dat allemaal zonder dat er een mens aan te pas komt met verklarende of voorspellende theorieën over het betreffende vakgebied. Dus: zonder een theorie over schaken, go, spraakklanken, grammatica of semantiek. Want de verzamelde statistische kennis levert alleen maar resultaten op, en geen dieper inzicht in de wetmatigheden van schaken, go, taal et cetera.
Het enige wat de mens nog hoeft te doen, is de bijna oneindige hoeveelheid gegevens voeren aan het leersysteem. Om daarna – in verwondering – te kijken naar de prestaties. De theoreticus is operator geworden. Met zijn handen aan een machine die zijn begrip te boven gaat.
Fake in plaats van gewaarmerkt
En de kritische gebruiker dreigt klakkeloos consument te worden. Want, zoals de uitvinders van GPT2 al aanduiden, met hun systeem kan het internet op exponentieel grote schaal vervuild worden met echt aandoende tekst die elke grond en elke verbinding met de wereld die wij kennen mist.
Stel je voor: het internet komt nog voller te staan met onzin. Hoe moeten wij – en onze kinderen – daar dan mee omgaan? En hoe kunnen we voorkomen dat de zoekmachines hierdoor verstopt raken, zodat de filter bubbles en de echokamers ons nog verder uiteendrijven?
Kan Pandora’s doos dichtblijven?
Kun je een uitvinding terugdraaien? Dat is de vraag die we ons nu, een dag na deze openbaring, moeten stellen. De geschiedenis heeft aangetoond dat dat niet kan. Diezelfde geschiedenis toont echter ook aan dat een ethische omgang met nieuwe technologie van essentieel belang is.
Het is zeker dat we deze nieuwe techniek niet ‘in de doos’ kunnen houden. Maar gelukkig komt hiermee de noodzaak van de discussie over fake en real extra urgent op de agenda. Want, hoe we moeten omgaan met die steeds grotere stroom van onzin, dat is en blijft de vraag.
Weg uit het moeras
En bij de beantwoording van die vraag is een belangrijke rol weggelegd voor de grote service providers – die leven van ons gedrag op het internet – zoals Google, Facebook maar ook Apple en Microsoft. Welke stappen gaan zij zetten om ons te helpen onze weg uit dit moeras te vinden nu dat echt onafzienbaar dreigt te worden?
Of moeten we onze hoop vestigen op een nieuw soort service provider, die betaalde gewaarmerkte content aanbiedt? We kunnen in ieder geval altijd nog terug naar de (wetenschappelijke) informatiepraktijk die zich volledig ‘op papier’ afspeelde…
Lees hier het blog van OpenAI over GPT2 https://blog.openai.com/better-language-models/ en lees hier hun wetenschappelijke paper over GPT2 https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf. En kijk hier naar een online demo van hun apparaat: type een willekeurige tekst en zie wat GPT2 voor je produceert https://talktotransformer.com/.