Historici, stop met zoeken!

Steeds meer historici zoeken in gedigitaliseerd materiaal. Met zoektermen worden tal van discoursen en narratieven uit kranten, debatten, en brieven opgelepeld. Dat brengt risico’s met zich mee. De praktijk van het zoeken dreigt voor intransparant, onkritisch, en onproductief onderzoek te zorgen. Daarom een oproep: historici, stop met zoeken!

Zo halverwege het tweede hoofdstuk van mijn proefschrift staat onderaan de pagina:

Leeuwarder Courant, 06-08-1960, p. 2.

Een krant, gebruikt om wat historische textuur toe te voegen aan mijn punt. Niets mis mee, zou je denken. Er is alleen iets geks. Ik heb in de afgelopen jaren niet de moeite genomen om af te reizen naar het archief van de Leeuwarder Courant in Tresoar. Ik heb geen Tresoarpas en ik ben niet gaan bladeren door de duizenden edities. Ik heb (tot mijn spijt) de studiezaal zelfs nog nooit gezien. Nee, de krant belandde in mijn tekst omdat ik zocht. Via Delpher wel te verstaan. Op een regenachtige middag surfde ik naar www.delpher.nl/kranten. Na het invoeren van een zoekterm verscheen de Leeuwarder Courant keurig op mijn beeldscherm. Ik las het artikel waarin de term zich bevond, probeerde te achterhalen wat de schrijver wilde zeggen, concludeerde dat dit mijn betoog ondersteunde, en met een klik verdween de pagina in mijn Zotero-map, om even later weer op te duiken in mijn document.

Deze ervaring moet bekend klinken. Op grote schaal gebruiken historici zoektermen om een onuitputtelijke voorraad narratieven en discoursen op te lepelen uit de Leeuwarder Courant, de Provinciale Overijsselsche en Zwolsche Courant, of De Graafschap-bode: nieuws- en advertentieblad voor stad- en ambt-Doetinchem, Hummelo en Keppel, Wehl, Zeddam, ’s Heerenberg, Ulft, Gendringen, Sillevolde, Terborg, Varsseveld, Dinxperlo, Aalten en Bor. Ook wie de sirenenzang van de ‘verdelpherisering’ weet te weerstaan, ontkomt niet aan digitalisering. Zelfs de meest analoge historicus is inmiddels verslaafd aan Transkribus. VOC-archieven, kronieken, notariële akten, briefwisselingen, resoluties, en correspondenties worden in rap tempo digitaal beschikbaar.

En wat gebeurt er met al deze ontsloten data? Ze worden doorzocht. Met zoekwoorden banen historici zich een weg door miljoenen pagina’s gedigitaliseerde tekst. En niet zonder resultaat. Onderzoek wordt efficiënter en ondergewaardeerde stemmen uit het verleden worden eindelijk op waarde geschat. De geschiedenis ‘van onderop’ wordt werkelijkheid in de vorm van het data-driven dolen door digitale tekst. Alleen maar winst, zou je denken. Toch is er reden tot zorg.

De opmars van onderzoek op basis van gedigitaliseerd bronmateriaal, gecombineerd met de afwezigheid van reflectie, theoretisering, scholing, en methodologische ontwikkeling zorgt voor onkritisch, intransparant, en onproductief onderzoek. Zoals ik zal betogen ligt de oorzaak voor dit probleem in de praktijk van het ‘zoeken’. Daarom een oproep: historici, stop met zoeken!

Zoeken als Probleem

‘Zoeken’ slaat op de praktijk van de verkenning van gedigitaliseerde bronnen op basis van zoektermen. Op grote schaal zetten historici zoektermen–gedefinieerd op basis van literatuur en intuïtie– in om relevante bronnen te selecteren. Hoewel dit onschuldig klinkt, gaat het zoeken gepaard met een aantal problemen. Allereerst is het zoeken intransparant. Het blijft doorgaans vaag hoe de historicus zoektermen heeft ingezet, in welke mate dat succesvol was, of de zoektermen tussentijds veranderd zijn, en hoe op basis van de resultaten conclusies zijn getrokken. Deze intransparantie wordt versterkt door de werking van de zoekmachines. Het is onontkoombaar dat resultaten op een bepaalde manier gevonden, gesorteerd, en gepresenteerd moeten worden. De precieze keuzes die hierin gemaakt zijn, zijn voor de onderzoeker vaak moeilijk te reconstrueren. Al met al wordt replicatie, (sowieso al een lastig thema in de geschiedwetenschap) nagenoeg onmogelijk.

Een tweede probleem is de onduidelijke significatie en relevantie van het op zoeken gebaseerde onderzoek. In de meeste databases levert elke zoekterm wel wat op. Alles lijkt relevant. Maar hoe relevant is relevant? Relevantie en significantie lijken vooral getest te worden door een vluchtige blik op het aantal ‘hits’. Maar hoeveel resultaten heb je nodig voor een ‘discours’?

Digitale bronnenkritiek is ontoereikend

Ik ben echt niet de eerste die waarschuwt voor de gevaren van het zoeken. In de afgelopen tien jaar zijn historici binnen en buiten Nederland uitgebreid ingegaan op de uitdagingen van het digitale tijdperk. De onderzoeks- en onderwijspraktijk verandert echter maar langzaam. Binnen onderzoeksprojecten en in de met hand en tand verdedigde curricula komt methodologische ontwikkeling en innovatie nauwelijks aan bod.

Als er al aandacht is voor de digitale geschiedpraktijk grijpen historici instinctief naar ‘digitale bronnenkritiek’. Dat komt vaak neer op een kritische analyse de wijze waarop een digitale bron tot stand komt, in welke context, en met welk doel. Dat zijn belangrijke vragen. Het is cruciaal om te weten welke kranten niet in Delpher zitten en dat het materiaal in Google Books vanaf het jaar 2000 aanzienlijk meer fictie bevat. Deze informatie is belangrijk, maar niet genoeg. Digitale bronnenkritiek neemt namelijk vaak de vorm aan van nogal obligate opmerkingen over ‘context’ en omissies in het gedigitaliseerde materiaal. We noteren keurig dat de Leeuwarder Courant echt geen representatieve afspiegeling is van de Nederlandse cultuur. Na deze disclaimer gaan we ons gebruikelijke gangetje.

Dit soort digitale bronnenkritiek is een reliek van een analoog verleden. In een context van archieven en schaarste is bronnenkritiek ons enige houvast. In een context van digitale overvloed volstaat het niet langer. De beschikbaarheid van de enorme hoeveelheden data stelt ons in staat om, bijvoorbeeld, de invloed van omissies en allerlei contextuele factoren te verdisconteren in het onderzoek. In de sociale wetenschappen is het heel normaal om te normaliseren en te ‘controleren voor’. Historici lijken hier maar weinig trek in te hebben. Als we onszelf echter serieus nemen, lopen we niet weg voor deze realiteit en zetten we de volgende stap, voorbij de digitale bronnenkritiek.

Zoeken is modelleren, en iedereen is digitaal

Hoe doen we dat? Hoe ontwikkelen we een constructieve en productieve houding ten opzichte van digitaal beschikbare bronnen? Een die niet alleen kritisch is, maar ook handvatten biedt voor het onderzoek zelf? Ik denk dat dat begint bij een ander begrip van ‘zoeken’. Precies tien jaar geleden schreef de bekende digital humanist Ted Underwood dat geesteswetenschappers zich dienen te beraden op de praktijk van full text search. Het zoeken op basis van sleuteltermen in grootschalige databases met tekst is namelijk minder eenduidig dan doet vermoeden. Underwood schrijft dat de zoekmachines benaderd worden als catalogi waarin materiaal ‘opgezocht’ kan worden. Geesteswetenschappers gebruiken zoekbalkjes als een manier om te raadplegen. Het probleem met deze retoriek is de veronderstelling dat het te raadplegen materiaal al bekend is; dat we de bronnen alleen nog even moeten opzoeken. De schijn wordt gewekt dat ’toegang’ de laatste hindernis is.

In de praktijk is toegang misschien wel de kleinste uitdaging bij het zoeken. Het ‘zoeken’ met sleuteltermen lijkt namelijk meer op modelleren en experimenteren dan op het raadplegen van een bibliotheekcatalogus. Modelleren draait om het ontwerpen van vereenvoudigde beschrijvingen van de wereld die bedoeld zijn om een specifiek fenomeen te verklaren en bepaalde aspecten van de werkelijkheid te benadrukken. Iedere wetenschapper modelleert, en de zoekende historicus is geen uitzondering. Een zoekterm wordt immers gezien als indicatief voor een trend, patroon, of cultuuruiting, en vormt hiermee in feite een (beschrijvend) model van de historische werkelijkheid en/of de talige afspiegeling daarvan. De zoekopdracht belichaamt de toepassing van het model, een vluchtige blik op het aantal resultaten vormt de evaluatie. We zijn als historici stiekem een beetje sociale wetenschappers geworden. Dat is helemaal niet erg, maar vereist wel acceptatie, reflectie, en actie.

De realisatie dat zoeken neerkomt op modelleren confronteert ons enerzijds met een reeks problemen. Eerst maar de problemen. Omdat we onze modellering niet expliciet maken, blijven aannames verborgen, wordt de interne consistentie van een model niet getest, zijn de logische consequenties onbekend en blijft de ‘fit’ tussen het model en de historische bronnen vaag. Hierdoor riskeren we dat onze onderzoeksresultaten worden vervormd door de beperkingen en vooroordelen van de gebruikte zoektermen. Zoektermen zijn immers vaak gebaseerd op intuïtie en bestaande literatuur, wat kan leiden tot een versterking van bestaande bias en blinde vlekken. Bovendien maakt de afhankelijkheid van zoektermen het moeilijk om nieuwe of onverwachte inzichten te verkrijgen, omdat de zoekopdrachten vaak alleen datgene opleveren wat we al vermoeden te vinden. Ten slotte kan de ondoorzichtige aard van digitale zoekprocessen leiden tot een gebrek aan verifieerbaarheid en replicatie, omdat anderen het exacte pad dat tot bepaalde conclusies heeft geleid, niet kunnen volgen of controleren.

Als we accepteren dat onze omgang met digitale data neerkomt op modellering, blijkt ook al snel dat een model op basis van zoektermen vaak niet erg productief is. Dikwijls zijn historici geïnteresseerd in fenomenen die zich niet laten vangen in een aantal woorden. Dat betekent niet dat de digitale data in een klap onbruikbaar is. Veel van de politieke, culturele, en economische fenomenen laten zich bij uitstek onderzoeken middels digitale tekst. Daarvoor is echter gedegen theoretisering, operationalisering en statistiek nodig.

Door zoeken te bezien als modellering ontvouwt zich ook een weg naar verbetering. Niet alleen ‘digitale bronnenkritiek’, maar meer kennis van archieftheorie, datatransformaties, statistiek, en theorie is nodig. Dit stelt ons in staat niet alleen bewust om te gaan met ontbrekend of contextueel ontworteld materiaal, maar die beperkingen ook mee te nemen in het onderzoek. Door steekproeven en ‘samples’ kan de significatie van het zoekterm-model getest worden; door het automatisch genereren van zoektermen op basis van tekstanalyse kan het model preciezer geformuleerd worden, en ‘systematic search’ kan ingezet worden om het zoek- en modelleringsproces transparant en repliceerbaar te maken. Kennis van theorie en statistiek is bovendien nodig om historische vragen om te zetten in kwantitatieve vragen. Dat kan namelijk ontzettend vaak, en het levert ook nog eens nieuwe vragen en antwoorden op. In mijn eigen discipline hebben kwantitatieve studies bijvoorbeeld het idee van een ‘Sattelzeit‘ in belangrijke mate aangescherpt. Ander baanbrekend werk geeft antwoord op geheel nieuwe vragen, en brengt in kaart hoeveel bronnen we nu eigenlijk missen, of waar innovatieve ideeën eigenlijk vandaan komen.

Eerder beargumenteerde ik dat het ‘zoeken’ niet alleen het gedrag van historici kenmerkt, maar ook investeringen stuurt. Tot op heden wordt vooral ingezet op de ontwikkeling van infrastructuren. Infrastructuurprojecten stellen zichzelf doorgaans ten doel om de beschikbaarheid en doorzoekbaarheid van data te vergroten. In mijn ervaring heeft dit vooral een verschralend effect. Infrastructuren lijken te veronderstellen dat door simpelweg de toegang te verbeteren, het (vernieuwende) onderzoek vanzelf volgt. Onderzoek volgt echter op vragen en debat, en niet op een interface. Hoe toegankelijk alle data ook is, goed zoeken (en modelleren) gaat niet vanzelf.

Voor wie verder wil praten over zoeken, vinden, en de historische praktijk organiseren enkele digitale historici tijdens de Historicidagen een sessie over ‘Digital Archival Literacy and Historical Research Practices’.

Ruben Ros is promovendus aan het Instituut voor Geschiedenis en het Centre for Digital Humanities van de Universiteit Leiden. Hij houdt zich bezig met computationele tekstanalyse, politieke geschiedenis, en de ontwikkeling van technocratisch denken in politiek debat.