Welke bestanden zijn mijn archiefbestanden?
Het is belangrijk dat de bestanden die je via batch intake aanlevert, duurzame archiefformaten zijn. Het is mogelijk dat jouw digitale collectie meer bestanden bevat dan je uiteindelijk duurzaam wil bewaren, zoals lageresolutiekopieën. Deze zijn interessant voor eigen gebruik of hergebruik op platformen, maar niet als archiefmaster op lange termijn.
Meemoo archiveert dus archiefmasters. Een archiefmaster of masterbestand geeft de inhoud van het bestand zo getrouw mogelijk weer en heeft zo min mogelijk last van het verouderen of verdwijnen van de afspeeltechnologie. Het is het bestand van de hoogst mogelijke kwaliteit aanwezig in jouw (digitaal) archief. Bezit je eenzelfde bestand in twee bestandsformaten (dit zijn dus identieke kopieën)? Dan kies je het meest duurzame archiefformaat:
- Voor videomateriaal raden we MKV- en MXF-bestanden aan.
- Heb je voor stilstaand beeld (foto) bijvoorbeeld de keuze tussen JPEG en TIFF? Ga dan voor TIFF.
- Bij audiomateriaal geven we de voorkeur aan WAV-bestanden.
Wil je graag nog meer weten over duurzame bestandsformaten? Duik dan hier in de richtlijnen van het Amerikaanse Library of Congress over aanbevolen formaten!
Bovendien komen niet alle bestandstypes en -formaten in aanmerking voor bewaring in het meemoo-archiefsysteem. Zo zijn werkbestanden sowieso niet in scope, zoals pdf, doc, psd of pub.
Welke bestanden zijn wel en niet in scope?
Het maken van een bestandsinventaris, bijvoorbeeld met DROID, kan jou bijstaan in het maken van een slimme selectie. Het resultaat van een DROID-analyse is een lijst van alle bestanden, inclusief bestandsformaat en extensie.
Hoe maak in een bestandsinventaris op?
Wil je graag aan de slag met jouw bestandsinventaris om archiefmasters te selecteren? Hieronder lijsten we enkele handige en concrete tips op!
Archiefmasters identificeren en selecteren via de inventaris
Wil je graag aan de slag met jouw gemaakte bestandsinventaris (bv. via DROID) om archiefformaten te selecteren die kunnen instromen in een batch-intaketraject? Dan lees je hieronder hoe je dat kan doen in drie stappen!
Stap 1: CSV opslaan als een bewerkbare spreadsheet
Het resultaat van een DROID-analyse is een CSV-bestand, of 'Comma-Separated Values'- of kommagescheiden-bestand. Dit bestand is goed om bv. imports of exports te doen, maar minder goed om te bewerken. Daarom kan je hieronder lezen hoe je dit CSV-bestand kan omzetten in een makkelijk hanteerbare spreadsheet waarin je bewerkingen kan uitvoeren in bijvoorbeeld Excel, Libre Office of Google Spreadsheet.
Formatteer je data bij het importeren als tekst. Dit zorgt ervoor dat Excel de oorspronkelijke data uit het CSV-bestand niet zal omvormen. Dit doe je zo:
- Importeer je CSV-bestand in jouw programma naar keuze, bv. Excel.
- Je opent daarvoor een nieuwe spreadsheet.
- Je kiest bovenaan bij 'Bestand' of 'File' voor 'Import(eer)' en dan laat je de eerste optie aangeduid staan, namelijk 'CSV file' en weer 'Import(eren)'.
- Je selecteert dan de DROID-export die op jouw computer opgeslagen staat en klikt daarna op 'Gegevens ophalen' of 'Get data'.
- Geef aan hoe je de CSV in kolommen wil opsplitsen. Klik op 'Gescheiden' of 'Delimited'. Een CSV kan door een komma (,) of een puntkomma (;) gescheiden worden. Kijk dus goed na in je bronbestand hoe dit wordt gedaan. Als je het niet weet, kan je altijd je CSV openen met een tekstbewerkingsprogramma (bv. TextEdit of Word) om de ruwe informatie te bekijken. Klik op 'Volgende' of 'Next'.
- Selecteer dus 'Komma'/'Comma' of 'Puntkomma'/'Semicolon' (afhankelijk van jouw CSV-bestand) en deselecteer 'Tab'. Je ziet dan in het voorbeeld of de preview onderaan dat de data wordt opgesplitst in kolommen. Klik op 'Volgende' of 'Next', en klik op 'Voltooien' of 'Finish' en OK.
Nu kan je jouw CSV-data gaan bewerken in bijvoorbeeld Excel. Wanneer de bewerkingen en dus jouw selectie klaar zijn, dan kan je de data opslaan als Excelbestand (.xls), maar best ook 'opslaan als' CSV-bestand.
Let op: doe dit als CSV UTF-8-bestand (.csv), anders loop je het risico dat er vreemde tekentjes in jouw CSV sluipen in plaats van bv. de letters à of é. Dit komt door encoding problemen.
Stap 2: dubbels verwijderen op basis van de MD5-checksums
Om te voorkomen dat er dubbele bestanden bij meemoo worden bewaard (en er dus ook dubbele opslag wordt voorzien én betaald) is het belangrijk om waar mogelijk de dubbels voor de eigenlijke instroom te verwijderen. Hoe je dit aanpakt, staat zeer gedetailleerd uitgeschreven op de TRACKS-website. Een bezoekje waard! Of lees meer hieronder.
Digitaal archief opschonen Dubbels en overbodige elementen verwijderen
In jouw bestandsinventaris kan je zo de dubbels zichtbaar maken in Excel:
- Selecteer de kolom waarin je dubbels zichtbaar wil maken.
- Klik onder onder 'Start' of 'Home' op 'Voorwaardelijke opmaak' of 'Conditional Formatting'.
- Kies bovenaan 'Markeringsregels voor cellen' of 'Highlight Cells Rules'.
- Kies onderaan 'Dubbele waarden' of 'Duplicate Values' en klik op 'OK' in het pop-upvenster. Je dubbele waarden hebben een kleur of highlight gekregen.
- Maak een filter: selecteer alles (command + a of ctrl + a), klik bovenaan op 'Gegevens' of 'Data' en dan 'Filter'. Je kan nu filteren op de dubbele (en dus ingekleurde) waarden.
- Klik op de filter (of pijl) in de correcte kolom. Kies bij Filter - Op kleur/By colour voor 'Celkleur' of 'Cell Colour' het gekleurde vakje. Je filtert op deze manier de geïdentificeerde dubbele waarden uit.
En in Google Spreadsheet door:
- Selecteer de kolom waarin je dubbels zichtbaar wil maken.
- Klik bovenaan op 'Opmaak' en dan 'Conditionele opmaak'. Er verschijnt rechts een extra vak, waarbij 'Toepassen op bereik' reeds ingevuld is door de waarde van de geselecteerde kolom, bv. M1:M1000 (wat betekent rijen 1 tot en met 1000 in kolom M).
- Onder 'Opmaakregels - Cellen opmaken als...' kies je helemaal onderaan 'Aangepaste formule is'.
- In het vakje 'Waarde of formule' vul je volgende formule in: =AANTAL.ALS($M$1:$M$1000;M1)>1, waarbij je M vervangt door de letter van de kolom waarin je op zoek gaat naar dubbele waarden. Is dat bv. in kolom E, dan vul je volgende formule in: =AANTAL.ALS($E$1:$E$1000;E1)>1. De waarde 1000 vervang je door de waarde van het totaal aantal rijen van je spreadsheet.
- Klik op 'Klaar'. Je dubbele waarden hebben een kleur of highlight gekregen.
- Maak een filter: selecteer alles, klik bovenaan op 'Gegevens' en dan 'Een filter maken'. Je kan nu filteren op de dubbele (en dus ingekleurde) waarden.
- Klik op de filter in de correcte kolom. Kies 'Filteren op kleur' en kies de juiste kleur onder 'Opvulkleur'. Je filtert op deze manier de geïdentificeerde dubbele waarden uit.
De dubbele waarden kregen nu eenzelfde kleur. Hierdoor kan je makkelijk detecteren of er dubbels aanwezig zijn in je bestandsinventaris, zodat je deze kan verwijderen uit jouw selectie van archiefbestanden. Je gaat best op zoek naar dubbels in volgende kolommen in je bestandsinventaris (via DROID): NAME en MD5_HASH. Deze moeten namelijk altijd uniek zijn, anders zal de instroom en dus archivering niet slagen.
Stap 3: filteren op mime type of bestandsextensie
Niet alle bestandsformaten komen in aanmerking voor duurzame bewaring in het meemoo-archiefsysteem. Daarom is het belangrijk om een weloverwogen selectie te maken vooraleer jij jouw digitale (deel)collectie aanbiedt aan meemoo. Het aanmaken van en werken met filters in jouw bestandsinventaris helpt jou daarbij.
Maak eerst een filter aan in jouw bewerkbare spreadsheet (zie stap 1).
- Selecteer alle data. Je moet er wel eerst voor zorgen dat er zich zeker geen lege rijen in jouw spreadsheet bevinden die jouw data onderbreken.
- Voor Mac-gebruikers: commandtoets + letter a.
- Voor Windows-gebruikers: controltoets + letter a.
- Klik op 'Gegevens' of 'Data' en dan 'Filter'. Dat is het trechtersymbooltje. Je ziet in jouw bovenste rij dat elke kolom een pijltje naar beneden heeft gekregen. Dat is jouw filter waarop je kan klikken. Je ziet dan alle waarden uit die kolom netjes staan, die je kan aan- en uitvinken.
- Wij vinden het daarnaast ook handig om de bovenste rij vast te zetten in een spreadsheet. Dat zorgt ervoor dat als je naar beneden scrolt, deze bovenste rij altijd bovenaan zichtbaar blijft. Deze bovenste rij is de naamgeving van iedere kolom.
- Klik op 'Beeld' of 'View' en dan 'Bovenste rij blokkeren' of 'Freeze Top Row'.
Ga nu aan de slag met jouw filters om de juiste bestandsformaten te selecteren en eventueel deselecteren. Bestudeer eerst nog eens goed welke archiefformaten wel en vooral niet in aanmerking komen voor een digitale-instroomtraject. Met vragen ben je altijd welkom bij jouw meemoo-trajectbegeleider.
Welke bestanden zijn in scope?
- Klik in de kolom 'MIME_TYPE' op het pijltje naar beneden. Je ziet nu alle mogelijke mime types aanwezig in jouw spreadsheet.
- Dit is een standaard die het media of content type van een bestand specificeert (en dus in relatie staat tot de bestandsextensie), zoals text/plain, audio/mpeg, image/jpeg, video/mp4, application/pdf, etc.
- Vink eerst de selectie uit door 'Selecteer alle' of 'Select All' uit te vinken.
- Ga dan mime type per mime type te werk. Alle bestandsformaten die niet in aanmerking komen voor digitale instroom bij meemoo verwijder je ten eerste uit deze spreadsheet, maar verwijder je bovenal ook uit jouw selectie van aan te leveren materiaal!
- Vergeet jouw bewerkingen niet op te slaan. Je kan deze spreadsheet best ook eens aftoetsen met jouw meemoo-trajectbegeleider.
Hoe kan ik controleren of mijn archiefbestanden integer zijn?
Wanneer je bestanden aanlevert om te bewaren in het meemoo-archiefsysteem wil je uiteraard dat die bestanden integer en niet-corrupt zijn. Maar hoe controleer je of dit ook het geval is?
De snelste manier om te controleren of je bestanden integer zijn, is via een MD5-checksum. Dit is een compacte, digitale vingerafdruk van een bestand. Je voert een controle uit door een oudere MD5-checksum met een nieuwe te vergelijken, de MD5-checksums worden dus vergeleken doorheen de tijd. Als de digitale vingerafdruk ongewijzigd blijft, betekent dit dat jouw bestand ook ongewijzigd is gebleven. Hiervoor heb je natuurlijk eerst een meetpunt in het verleden nodig, namelijk een oudere MD5-checksum.
Hoe je MD5-checksums kan berekenen of genereren, lees je hier.
Een tweede optie is om je bestandsformaten te valideren via een tool. Jammer genoeg bestaat er niet één tool die alle bestandsformaten kan controleren, maar hieronder vind je alvast enkele tools voor veelvoorkomende formaten:
- Voor TIFF-bestanden kan je de integriteit checken met DPF Manager. Meer info over deze tool vind je hier op de Kennisbank.
- Voor JPEG2000-bestanden kan je jpylyzer gebruiken.
- Voor videobestanden (bv. MKV) kan je FFmpeg of MediaConch gebruiken.
Let wel op: De meeste van deze tools worden niet meer technisch onderhouden. Heb je hierover nog vragen? Dan kan je terecht bij onze collega’s van team Expertise (via support@meemoo.be).