Catching the Digital Heritage. Op jacht naar het erfgoed van morgen.

Tine Vekemans & Jeroen Fernandez-Alonso, Liberas/Liberaal Archief en Amsab-ISG

Waarom web-archivering?

Niels Brügger start zijn recente volume The Archived Web met een korte casus waarin hij beschrijft hoe de website van het Witte Huis in de twee maanden na de verkiezing van Donald Trump substantieel verandert en hoe onder andere pagina’s aangaande klimaatverandering die onder de legislatuur van Obama gepubliceerd werden van de website verdwijnen.1 Bepaalde informatie is zo niet langer ter beschikking van de burger, noch van de onderzoeker die een studie wil maken van het digitaal discours van de Obama-administratie. Informatie op het internet is vluchtig en deze vluchtigheid is niet noodzakelijk steeds politiek gemotiveerd. Telkens een website wordt geüpdatet neemt nieuwe content de plaats in van oudere content. Oudere content blijft in de meeste gevallen niet langer beschikbaar. Deze vluchtigheid wordt verder in de hand gewerkt door het snelle verschijnen en verdwijnen van websites en het verouderen van ondersteunende software waardoor delen van webpagina’s onleesbaar worden. Het cultuur- en erfgoedveld heeft intussen nota genomen van deze vluchtigheid, en binnen een aantal organisaties werd er gestart met het bewaren van websites. Toch blijkt het proces van web-archivering om verschillende redenen vaak moeilijk in te bedden in de bestaande archiefpraktijk.

Een grafische voorstelling van het gehele web-archiveringsproces. In dit artikel wordt dieper ingegaan op de fases die hier geel aangeduid staan. (Bron: auteurs: Creative Commons BY-SA)

Dit artikel bespreekt kort een aantal van de moeilijkheden inzake registratie en toegankelijkheid bij het integreren van gearchiveerde websites in een bestaande multimediale erfgoedcollectie. Het baseert zich hiervoor op de eerste bevindingen van het Catching the Digital Heritage project (CtDH), dat op poten werd gezet door twee Gentse cultureel-erfgoedorganisaties, Amsab-ISG en Liberas/Liberaal Archief, met de steun van de Vlaamse overheid. CtDH moet de opgelopen achterstand in de registratie van reeds binnengehaalde websites inhalen, en het web-archiveringsproces inbedden in de bestaande procedures en collecties.

Publicatie of archiefstuk, en waarom het uitmaakt

Eén van de hoofdredenen dat het registreren van gearchiveerde websites vertraging oploopt is eerder filosofisch van aard: Hoe moeten we een website conceptueel bekijken? Is het een publicatie, die beschreven kan worden als ware het een boek in een bibliotheek? Of is het eerder een documentair bestand, vergelijkbaar met een doos notities, knipsels, foto’s en diskettes in een archief? Voor allebei deze opvattingen zijn argumenten te bedenken. Ook binnen wetenschappelijk onderzoek is deze ‘identiteitscrisis’ opgemerkt.2 In 2018 publiceerde OCLC een aantal meta-data richtlijnen voor gearchiveerde websites.3 De metadata-elementen die ze voorstellen overbruggen in zekere zin de tweedeling tussen beschrijvingsprocedures in de bibliotheek- en archiefsectoren. Hoewel er vaak naar deze richtlijnen wordt verwezen, bieden ze geen directe oplossing. Ten eerste moeten ze nog vertaald worden naar het metadatamodel van de registratie- en catalogussoftware die gebruikt wordt binnen de archiefbewaarplaats of de bibliotheek. Ten tweede ligt de focus van OCLC op beschrijvende metadata, waardoor technische metadata weinig of geen plaats krijgen binnen de huidige richtlijnen. Dit terwijl onderzoek naar gebruikersnoden keer op keer aantoont dat onderzoekers en archiefgebruikers beiden nodig hebben om de gearchiveerde websites ten volle te kunnen benutten.4 Het is dus een extra uitdaging om technische metadata (zoals crawler settings en versie, bestandstype, grootte, kwaliteit, datum …) op één of andere manier ook op te nemen bij de registratie, en deze informatie ter beschikking te stellen van gebruikers.

Juridische implicaties van openbaar maken

Eens de gearchiveerde websites beschreven zijn, kan (een deel van) deze beschrijving publiek toegankelijk worden gesteld via de (online) catalogus. Hoewel dit zeer contra-intuïtief overkomt, is het in regel niet toegelaten om de gearchiveerde website zelf vrij toegankelijk te maken. Dit omwille van wetgeving met betrekking tot gegevensbescherming enerzijds, en bescherming van intellectuele eigendom (copyright) anderzijds.

Gegevensbescherming moet er voor zorgen dat persoonlijke informatie niet misbruikt kan worden. De wetgever interpreteert ‘persoonsgegevens’ zeer breed: alle informatie die betrekking heeft op natuurlijke personen. Websites bevatten bijna altijd zulke persoonlijke informatie en kunnen mogelijk gevoelige persoonlijke informatie bevatten (bijv. gegevens over etnische afkomst, religie, overtuiging, seksuele voorkeur, medische geschiedenis). In het omgaan met zulke informatie moet een afweging gemaakt worden van het belang van de verwerking en het risico voor de persoon in kwestie.

Met de digitale wereld in het achterhoofd werd daarom gewerkt aan een aangepaste wet op persoonsgegevens, die beter geschikt zou zijn om de eigenaar van de data (het data subject) te beschermen. De strengere wetgeving kwam er initieel vooral om commercieel gebruik/misbruik van data in te perken, maar ook andere vormen van dataverwerking, zoals het archiveren voor publieke doeleinden, vallen onder dezelfde wetgeving, zij het aangevuld met een aantal uitzonderingsmaatregelen op Europees en nationaal niveau.5

Daarnaast is het vooral de toepassing van het auteursrecht dat het vrijelijk toegankelijk stellen van gearchiveerde websites in de weg staat. Niet enkel de teksten, maar ook eventuele foto’s, video’s, de opbouw, en de totaliteit van de website zijn onderhevig aan het auteursrecht. Dat wil zeggen dat ze niet gekopieerd of verder verspreid mogen worden zonder expliciete toestemming van de rechthebbenden. De Belgische auteurswet bouwt een aantal uitzonderlijke situaties in waarbinnen het maken van kopieën van een werk dat door de auteur openbaar gemaakt is wél geoorloofd is [Art. 22]. Zo is het voor archieven toegestaan om kopieën intra muros beschikbaar te stellen voor onderzoek of privéstudie. Dit blijft een zeer beperkende vorm van toegankelijkheid, zeker wanneer men bedenkt dat het hier gaat om websites die nog niet zo lang geleden vrijelijk online toegankelijk waren.

Gearchiveerde websites toegankelijk maken via een onlinecatalogus vereist het expliciete akkoord van de auteur. Onderzoek naar het archiveren van websites wijst echter uit dat dit vaak niet praktisch haalbaar is: over het algemeen is het een tijdsintensief proces, waarbij er uiteindelijk weinig reactie komt van aangeschreven copyrighthouders. Daarbij komt nog dat het vaak onduidelijk is wie de verschillende rechthebbenden precies zijn. Voor het archiveren van websites wordt daarom in praktijk zelden vooraf toestemming gevraagd. Een aantal projecten stuurden vooraf een bericht naar de organisaties achter te “harvesten” websites om hen toe te laten bezwaar aan te tekenen (opt-out policy). Websites als Internet Archive stellen hun collectie online volledig openbaar toegankelijk en vragen geen toestemming om websites te archiveren. Wanneer er klachten komen, worden websites wel uit de collectie verwijderd (take-down policy). Geen van deze strategieën blijkt in België rechtsgeldig. De meest gevolgde strategie voor archieven is momenteel het beperken van de toegankelijkheid. Het archiveren van websites en sociale media zal in de toekomst wél worden opgenomen in nieuwe schenking- en depotcontracten bij Amsab-ISG en Liberas/Liberaal Archief.

Conclusie

Uit bovenstaande blijkt dat het niet zo vanzelfsprekend is om gearchiveerde websites te integreren in de gevestigde registratie- en catalogussystemen. Helaas is er ook geen uniforme oplossing voor de hierboven beschreven problemen. Wat betreft registratie zal elke organisatie een systeem moeten uitwerken dat enerzijds rekening houdt met de eigenheid van websites als brontype en de informatienoden van eventuele archiefgebruikers, en anderzijds op pragmatische wijze ingepast kan worden in de gebruikte registratiesystemen. Wat betreft toegankelijkheid is het in zekere zin de juridische kat uit de boom kijken: aangezien zowel de wet op de bescherming van persoonsgegevens als de auteurswet recent gewijzigd zijn, is het vooralsnog onduidelijk welke juridische vrijheden erkende culturele archieven juist hebben inzake het toegankelijk stellen van gearchiveerde websites. Het is dus belangrijk om hier de vinger aan de pols te houden. Hoe dan ook mogen deze beperkingen geen reden zijn om het archiveren van relevante websites uit te stellen.

- Tine Vekemans & Jeroen Fernandez-Alonso

Webreferenties

Catching the Digital Heritage project: https://www.projectcest.be/wiki/Publicatie:Project:_Catching_the_digital_heritage
Amsab-ISG: http://www.amsab.be/
Liberas/Liberaal Archief: https://www.liberas.eu/
Internet Archive: https://archive.org/

Referenties

Brügger, Niels, The Archived Web. (London: The MIT Press, 2018), p. 1-2.
Cebra, Jessica, Describing web archives: a standard with an identity crisis? (IIPC 2019 paper presentation, 2019). (Abstract online raadpleegbaar)[ http://netpreserve.org/ga2019/programme/abstracts/#16].
Dooley, Jackie. & Bowers, Kate, Descriptive Metadata for Web Archiving: Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group. (Dublin, OH: OCLC Research, 2018). Online raadpleegbaar.
Hockx-Yu, Helen, Access and scholarly use of web archives. (Alexandria, 25(1-2), 2014), p. 113-127. En Brügger, Niels & Schroeder, Ralph, ‘Introduction: The web as history’. In Brügger, N. & Schroeder, R. (eds.) The Web as History: Using Web Archives to Understand the Past and the Present. (London: UCL Press, 2017), p. 1-19.
Hänger, Andrea, ‘The consequences of the GDPR for archives and their users: an initial review’. In K. Honacker (ed.) The right to be forgotten vs the right to remember, (Brussel: VUB Press), p. 59-68.

Foutmelding