GenAI in de erfgoedsector: het MODAL-project

Born-digital archief en de mogelijkheden van GenAI

Het project ‘Metadateren en Ontsluiten van Digitale Archieven met behulp van Large Language Models’ (LLM’s, grootschalige taalmodellen), of kortweg MODAL, ging in het najaar van 2024 van start en is een samenwerking tussen het ADVN, Amsab-ISG, ./Datable, het Letterenhuis, meemoo en MoMu. Binnen het MODAL-project wordt onderzocht welke toepassingsmogelijkheden generatieve artificiële intelligentie (GenAI) de cultureelerfgoedsector biedt en hoe de kennis daarover te verspreiden binnen de sector.

De cultureelerfgoedsector beheert immers een enorme hoeveelheid digitale, tekstuele data in de vorm van collectiedatabanken en catalogi, archiefbestanden, publieksteksten, publicaties, conserveringsrapporten, blogposts, gearchiveerde websites, sociale media, etc.
Slechts een gedeelte daarvan is in gestructureerde vorm beschikbaar, d.w.z. beschreven volgens geschikte beschrijvingsstandaarden, zodat ze relatief snel kunnen worden doorzocht door zowel beheerders als eindgebruikers. Het creëren van deze gestructureerde toegangen is een zeer arbeidsintensief proces, dat gespecialiseerde kennis vereist. Het gevolg is dat cultureelerfgoedorganisaties vaak kampen met een achterstand in het toegankelijk maken van de data. Dit probleem wordt nog acuter door de grote toevloed van ongestructureerde data in born-digital collecties. Veel digitale archieven en collecties blijven daardoor lange tijd ontoegankelijk en onzichtbaar voor onderzoekers (en andere eindgebruikers).

Met de beschikbaarheid van GenAI, een subset van kunstmatige intelligentie die in staat is om nieuwe en originele data te produceren die lijkt op de gegevens waarmee het is getraind, zijn er nieuwe mogelijkheden ontstaan om erfgoed efficiënter en verrijkt te ontsluiten. Het gebruik van LLM’s kan collectiebeheerders en archivarissen helpen ongestructureerde, tekstuele data sneller te verwerken – bijvoorbeeld door samenvattingen te laten maken, automatische classificering of kernwoorden te genereren (onderwerpsdetectie). De mogelijkheid om omvangrijke collecties op een meer gebruiksvriendelijke en doeltreffende manier te doorzoeken (bijvoorbeeld door het bevragen ervan in natuurlijke taal), biedt veelbelovende kansen voor diverse gebruikers (zowel intern als extern). Binnen MODAL zouden er aanvankelijk drie gebruikersscenario’s onderzocht worden: het doorzoekbaar maken van digitaal archief, het opsporen van gevoelige of problematische inhoud en het tekstueel doorzoekbaar maken van audiomateriaal. De loop van het onderzoek bepaalde anders en de onderzochte gebruikersscenario’s werden hier en daar bijgestuurd.

MODAL Fase 1: Uitdagingen en Aanpassingen

Culturele archieven, musea en kunstenhuizen delen – in de hoedanigheid van collectie- en archiefbeheerders – vele taken en zorgen, waaronder niet in het minst de zorg omtrent het beheer, de verwerking en de ontsluiting van de exponentiële toevloed aan born-digital archief. Voor de meerderheid van de MODAL-projectpartners is dit niet hun eerste gedeelde samenwerking.

Het ADVN | archief voor nationale bewegingen (erkend cultureel archief en expertisecentrum, te Antwerpen) beheert naast een fysieke collectie ook talrijke digitale archieven van personen en organisaties en een zeer omvangrijke collectie van digitale nieuwsbrieven en gearchiveerde online mediakanalen. De digitale collectie van het ADVN wordt duurzaam bewaard binnen het digitaal archiveringssysteem van het AIDA-samenwerkingsverband, maar is nog in zeer beperkte mate ontsloten.

Amsab-ISG (Amsab-Instituut voor Sociale Geschiedenis, erkend cultureel archief en wetenschappelijk onderzoekscentrum, te Gent) beheert naast papieren archieven ook een aantal digitale archieven van archiefvormers (personen en organisaties) en gearchiveerde berichten van online mediakanalen (websites, nieuwsbrieven en sociale media). Net zoals bij het ADVN zijn deze duurzaam gearchiveerd maar slechts in beperkte mate ontsloten.

Het Letterenhuis (het literaire en letterkundig archief van Vlaanderen, te Antwerpen) beheert een groot aantal literaire archieven. Recent werden meerdere born-digital archieven van auteurs verzameld (o.a. David Van Reybrouck). Deze archieven zijn nog niet ontsloten en worden nu bewaard in de vorm van een disk image. Het ontsluiten stelt de archiefbeheerders voor verschillende uitdagingen op het vlak van privacy, selectie, basisregistratie van grote volumes en de prioritering in verwerking.

Meemoo is het Vlaams instituut voor het archief. Zij zijn een expertisecentrum en een ondersteunende dienstverlener voor inhoudelijke partners en diensten uit de cultuur-, media- en erfgoedsector. Hun kerntaken bestaan uit het digitaliseren en digitaal bewaren van archiefmateriaal, de ondersteuning van collectiebeheer, het toegankelijk en bruikbaar maken van archiefmateriaal, het verzamelen en delen van kennis, het adviseren bij digitaalerfgoedprocessen en het samen opzetten van projecten.

Momu (modemuseum, te Antwerpen) bezit menig uren aan audio-opnamen die door conservatoren werden gemaakt bij de verwerving van collectiestukken en/of naar aanleiding van de voorbereiding van een tentoonstelling. De inhoud van de gesprekken vormt potentieel een zeer belangrijke kennisbron voor zowel museummedewerkers en curatoren als externe onderzoekers. Het toegankelijk maken van deze audio-collectie is dan ook zeker een must.

De zorg voor en bekommernis om het behoud van digitaal cultureel erfgoed bij deze projectpartners is zoals gezegd zowel representatief voor deze specifieke organisaties als voor de hele sector. Alle onderzoeksresultaten zullen dan ook sectorbreed gedeeld worden. Er zal in de tweede fase ingezet worden op het uitrollen van een duurzaam kennisnetwerk rond ‘Erfgoed en AI’ dat ook na de afronding van het project kan blijven voortbestaan. Een bedrijf dat al decennialang advies geeft om digitale collecties, ./Datable (Antwerpen) voerde het onderzoek in de eerste fase uit.

Zoals eerder werd vermeld werd dat onderzoek uitgevoerd aan de hand van meerdere gebruikersscenario’s, die eveneens elk exemplarisch zijn voor concrete behoeften binnen de deelnemende organisaties, maar die evenzeer generiek kunnen toegepast worden. Naar aanleiding van intensieve vraaggesprekken met alle projectpartners omtrent de drie vooropgestelde scenario’s onderging de invulling ervan een aantal veranderingen. De analyse van digitale archieven werd dominant en daar rolden verschillende toepassingen uit voort. De drie pijlers van het project werden vanaf een gegeven moment het verkennen, metadateren en bevragen van de voor onderzoek aangeleverde datasets.

Bij het metadateren (een neologisme dat staat voor het genereren van metadata) stond ten eerste het ‘pre-process’ centraal. Dit voorbereidend werk zorgt ervoor dat alle tekstuele data uit de datasets op te verwerken wijze in de speciaal voor dit project aangelegde tekstdatabase belanden en van extra informatie (metadata) voorzien worden (denk aan bestandsformaat, taal, tekstgegevens en niet in het minst het omzetten van audio naar platte tekst [speech-to-text of S2T]). Vervolgens konden er onderwerpsdetectie, classificatie en NER (Named-entity recognition – ook wel bekend als named-entity identification) toegepast worden.

Aankondiging MODAL © openart

Al deze verkregen metadata vergemakkelijkten de volgende stap, de verkenning van het archief. Er werd gezocht naar toepassingen voor het genereren van samenvattingen, opsommingen, ontdubbelingen en tekstovereenkomsten om het in kaart brengen van de archiefinhoud (inhoud van een dataset) te vergemakkelijken en versnellen. Alle voorbewerkte of verrijkte datasets konden daaropvolgend vanuit de tekstdatabase bevraagd worden, dit door middel van een RAG-applicatie (Retrieval-augmented generation) of door een semantische zoekopdracht. Het opsporen van problematische inhoud van een archief viel in die zin niet volledig weg, omdat je door onderwerpsdetectie of een semantische zoekopdracht heel gericht zaken op kan sporen.

Alle onderzoeksresultaten van de eerste fase van het MODAL-project werden recent geëvalueerd en zullen in een uitgebreide rapportage gedocumenteerd worden. De code en documentatie van de ontwikkelde toepassingen worden online (open source) gepubliceerd.

The future is AI ?

De tweede fase van het MODAL-project zal in teken staan van implementatie en kennisdeling. Dit houdt concreet in dat een aantal van de onderzochte toepassingen doorontwikkeld wordt en er gekeken wordt hoe ze in bestaande werkprocessen en organisationele infrastructuur kunnen worden ingebed en toegepast. Aansluitend zal de algemene kennis daarover en de specifiek opgedane ervaring daaromtrent met de hele (cultureelerfgoed)sector gedeeld worden. Het MODAL-project hoopt dan ook mee aan de wieg te staan van een duurzaam (en liefst internationaal) kennisnetwerk ‘erfgoed en (gen)AI’.

(Gen)AI-toepassingen zijn immers alom aanwezig en ook voor de historicus op zowel korte als lange termijn onvermijdelijk. Dit houdt echter niet in dat het een noodzakelijke of verplichte (academische) praktijk hoeft te zijn – maar dat is een aparte discussie. Wel van groot belang is om hoe dan ook bewust met (gen)AI te leren werken en de meerwaarden of de valkuilen ervan te (her)kennen. De archief- en erfgoedsector kunnen hier deels in voorzien door het in kaart brengen of aanbieden van bepaalde mogelijkheden en oplossingen. Een onderzoek als dat binnen het MODAL-project draagt daaraan bij. Niet alleen het archief- of collectiemateriaal dat door bepaalde toepassingen ontsloten werd, is voor de historicus van belang, maar ook de toekomstige alternatieven om digitale archieven te doorzoeken zullen de onderzoekstoolkit van historici zonder twijfel uitbreiden.

-An De Ridder (ADVN)

Vorig artikel

Le fonds Jeannine Paque : archives et parcours d’une critique qui a défendu la littérature féminine

Salhia Van Risseghem, stagiaire aux Archives & Musée de la Littérature (AML)

Volgend artikel

De leefwereld van prostituees tussen 1850 en 1950

Tuur Bisschop, masterstudent UGent

Contacteer ons

Zin om mee te werken aan een volgend nummer van Contemporanea?
Dat kan via onderstaande link

Appel à contribution Directive aux auteurs

Le fonds Jeannine Paque : archives et parcours d’une critique qui a défendu la littérature féminine

Dit artikel delen

De leefwereld van prostituees tussen 1850 en 1950

Contacteer ons