Menu
IIPC Web Archiving Conference, Parijs, 24-26 april 2024
Digitalisering
dinsdag 30 april 2024
Geschreven door: Jeroen Buysse

Van 24 tot 26 april 2024 kwamen webarchivarissen van over de hele wereld in Parijs samen om de laatste evoluties in webarchivering te bespreken tijdens het jaarlijkse IIPC-congres. De IIPC (International Internet Preservation Consortium) is een internationale organisatie die zich als doel stelt de informatie die vandaag op het internet aanwezig is, toegankelijk te houden voor toekomstige generaties. Aangezien Liberas sinds 2003 websites archiveert en sinds 2018 ook sociale media, waren we benieuwd naar de laatste ontwikkelingen en trokken naar Parijs.

Webarchivering en het belang ervan

Een eerste opmerkelijke vaststelling: slechts een klein deel van de wereld doet aan webarchivering. Ongeveer 35 landen zijn lid van de IIPC. Veel van wat vandaag wereldwijd gepubliceerd wordt op het internet, gaat verloren. Wanneer toekomstige historici onze samenleving via webarchieven willen bestuderen, zullen ze dus nooit een volledig beeld krijgen.

Maar ook in de landen die wel aan webarchivering doen, kan nog veel verloren gaan. Dat bewijst de case van Skyblog. Skyblog werd in 2002 gelanceerd door het vrije radiostation Skyrock en was een voorloper van Facebook, vergelijkbaar met Noxa en Netlog in Vlaanderen. Vooral in de jaren 2000 was het platform zeer populair onder Franse jongeren, wat bleek uit de getuigenis van een fervente gebruiker uit die tijd. Het aantal gebruikers daalde echter in de jaren erna en Skyrock werd uit de markt geconcurreerd door de Amerikaanse sociale media. Volgens Pierre Bellanger, oprichter van Skyrock, gebeurde dit omdat deze bedrijven veel meer door hun overheid gesteund werden. Een overheid die vooral geïnteresseerd was en is in het verzamelen van data over de gebruikers. Dit was helemaal niet het geval voor de Europese platforms. In 2023 werd Skyblog, ondertussen hernoemd tot Skyrock, opgedoekt. De Bibliothèque Nationale de France heeft toen zeer snel, op een maand of drie tijd, alle 12,6 miljoen blogs geharvest en gepreserveerd (ongeveer 37 TB of 1/6 van wat BnF elk jaar harvest).

Een andere vaststelling is dat webarchivering in het buitenland vooral het werk is van (grote) universiteiten en bibliotheken die zeer omvangrijke datasets met soms bijvoorbeeld miljoenen tweets harvesten. Toch is het volgens onderzoekers zoals Carmen Noguera (Universiteit van Luxemburg) ook belangrijk dat kleinere en meer gespecialiseerde archieforganisaties zoals Liberas aan webarchivering doen omdat onderzoekers graag gebruik maken van verschillende webarchieven om een meer comprehensief beeld te krijgen. Kleinere datasets zijn vaak ook kwalitatiever met meer uitgebreide metadata. En aangezien er in België, i.t.t. onze buurlanden, nog steeds geen nationaal webarchief is, blijft het aangewezen om websites en sociale media die binnen de scope vallen, te archiveren. Bepaalde websites of sociale media accounts die Liberas in het verleden geharvest heeft, zijn trouwens ondertussen al verdwenen van het web.

Naast het feit dat webarchieven soms een primaire bron zijn, kunnen ze ook meer context geven aan andere objecten die archieven bewaren. De website van een organisatie of persoon kan een hoop informatie opleveren en een duidelijker beeld geven tijdens het onderzoek in het eigenlijke archief.

Problemen

Het archiveren van websites verloopt vrij vlot, al maakt de omvang van bepaalde websites het er soms niet gemakkelijker op. Sociale media archiveren is echter een ander verhaal. Verschillende platforms zoals Facebook, LinkedIn en Instagram zijn na het Cambridge Analytica schandaal in 2016, begonnen met het afschermen van hun data. Liberas kon bijvoorbeeld tot 2020 zonder problemen facebookpagina’s archiveren maar erna was dat niet meer mogelijk. Op de conferentie werd dat mooi omschreven als de “APIcalypse” (API’s zorgen er o.a. voor dat data uitgewisseld kan worden tussen twee databases). Twitter bleef wel nog toegang geven voor onderzoeksdoeleinden maar na de overname door Elon Musk en de naamswijziging naar X in 2023 is ook dat verleden tijd. Liberas heeft in de periode voor de “APIcalypse” gelukkig wel alle data kunnen binnenhalen die personen en organisaties van onze basislijst produceerden sinds de start van hun sociale media accounts.

Voor de webarchivaris die sociale media wil harvesten, blijft het dus behelpen met allerhande tools zoals bijv. webrecorders die een opname maken terwijl de archivaris doorheen het account scrolt. Die tools kunnen echter morgen al niet meer werken en bij elke archiveringsronde wordt er gekeken met welke tools er nog gewerkt kan worden. Samenwerking met andere archieven die met webarchivering bezig zijn en het uitwisselen van ervaringen, is hierbij dus cruciaal. Op Vlaams niveau werkt Liberas hiervoor overigens in een werkgroep samen met andere culturele archieven, een uitvloeisel van het project “Best practices voor de archivering van sociale media in Vlaanderen en Brussel” van meemoo en Kadoc/KULeuven (2020-2023).

Gebruik van webarchieven

Waarvoor worden webarchieven momenteel gebruikt? Naast het al aangehaalde argument dat webarchieven meer context bieden aan andere door archieven bewaarde objecten, viel het op dat onderzoekers deze gearchiveerde data vooral graag visueel voorstellen in een netwerkanalyse met clusters. Bepaalde clusters (van bijvoorbeeld gebruikte woorden of links met andere websites) zijn dan groter en tellen meer met elkaar verweven nodes waaruit de onderzoeker dan relevante conclusies kan trekken. De Deense professor Niels Brügger analyseerde zo de evolutie van de websites van 6 Deense voetbalclubs tussen 1996 en 2021. Hij focuste daarbij niet enkel op de inhoud maar ook op de vorm en structuur van de sites die naarmate de jaren vorderden logischerwijze veel meer uitgebreid werden.

Om een onderzoeker toe te laten doorheen verschillende webarchieven te zoeken en analyses te maken, moet de data uiteraard eenvormig zijn en daarvoor wordt de archiveringsstandaard WARC naar voren geschoven. De laatste jaren geven de meeste archiveringstools inderdaad een WARC bestand als output, maar de in het verleden verzamelde data kennen andere formaten. Een interessante lezing op de conferentie behandelde het omzetten van deze data naar WARC en de problemen die daarmee gepaard gaan. Dit is ook interessant  voor Liberas aangezien ook wij pas de laatste jaren zijn overgestapt naar deze WARC standaard.

Webarchivering in Liberas

De door Liberas gearchiveerde collectie websites en collectie sociale media zijn hier te doorzoeken:

•    Collectie websites

•    Collectie sociale media

Wegens privacyredenen zijn de websites en sociale media accounts enkel te bekijken in de leeszaal van Liberas. In mei start Liberas met de jaarlijkse archiveringscampagne waarbij opnieuw een groot aantal websites en sociale media accounts gearchiveerd zullen