![]() |
![]() |
Voorbereiding
De digitalisering van de kranten gebeurt op een set bij de Service Provider (SP), Picturae B.V. Ter voorbereiding van de digitalisering werden de vereisten vastgelegd in het aanbestedingsdossier. Voordat de krantenpagina's opgenomen en machineleesbaar worden gemaakt, doorlopen ze enkele stappen:
- ze worden geregistreerd en metadata worden verzameld;
- ze worden verpakt en gaan op transport;
- bij aankomst wordt een inschatting gemaakt van de hanteerbaarheid van de kranten door de SP.
Eigenlijke digitalisering
Vervolgens wordt overgegaan tot de digitalisering:
- De set staat klaar en de camera's worden gekalibreerd. Wanneer de camera's correct zijn ingesteld volgens de vereisten, neemt Picturae enkele targets op. Dit zijn kleur- en scherptekaarten die iedere opnamedag naar meemoo worden verstuurd. Aan de hand hiervan controleren we de camerainstellingen
- Iedere krant wordt hierna op de set geplaatst. De manier waarop is afhankelijk van de vorm en hanteerbaarheid van de krant:
- Losse kranten die volledig opgeplooid kunnen liggen, worden op een vlakte geplaatst.
- Gebonden kranten die niet helemaal open kunnen worden op een V-shape boekenwip gelegd.
- Boven de set hangen twee correct gekalibreerde camera's die kruislings gericht zijn op één bladzijde van de krant. De camera's nemen elk één bladzijde op, ook wel een unifolio-opname genoemd.
Uitzonderlijk: unifolio versus bifolio-opnames
De kranten binnen het GIVE-krantenproject Primeur worden unifolio opgenomen. Hiervoor heeft de Picturae een unieke set gebouwd. Het gebeurt echter ook dat kranten bifolio (ook wel in spread genoemd) worden opgenomen als het formaat van de krant en de capaciteit van de camera dit toelaten. Hierbij is er slechts één camera die tegelijkertijd twee pagina’s opneemt. Daarna wordt deze opname gesplitst, zodat er één afbeelding per pagina is.
Om dezelfde kwaliteit te garanderen bij een bifolio-opname als bij een unifolio-opname, is het belangrijk om te kijken naar de formaten van de kranten. Enkel kleinere formaten zijn geschikt voor bifolio-opnames, afhankelijk van wat de camera aankan. Bifolio-opnames hebben dan wel weer het voordeel dat de set veel gebruikelijker is bij krantendigitalisering en dat de opnamesnelheid sneller is. Hierdoor is een bifolio-opname ook mogelijk in het GIVE-krantenproject voor de kleinere formaten
- Vervolgens wordt er pagina per pagina een opname (in TIFF-formaat) gemaakt.
- Na het maken van de opnames, worden de fysieke kranten terug naar de opslag gebracht.
- Op basis van de opnames wordt tekenherkenning toegepast op de krantenpagina's (OCR staat voor optical character recognition). Dit maakt de tekst van de krantenpagina machineleesbaar en doorzoekbaar. Deze gegevens worden verzameld in een ALTO-bestand.
- Simultaan met de opnames en OCR, worden er ook metadata toegevoegd in een METS XML.
- De opnames (TIFF-bestanden), de OCR (ALTO-bestanden) en metadata (METS XML-bestanden) worden in een pakket geleverd aan meemoo.
Kwaliteitscontrole
Voor de digitale bestanden instromen in het meemoo-archiefsysteem (MAM), wordt er door meemoo een uitgebreide kwaliteitscontrole uitgevoerd. We voeren eerst en vooral een aantal automatische checks uit op basis van de vooraf opgestelde vereisten. Dit doen we met behulp van een aantal OpenSource-instrumenten, bijvoorbeeld:
- de controle op de kalibratie van de camera gebeurt met Delta.E en GIMP;
- de validatie van het TIFF-bestand gebeurt in DPF Manager;
- de OCR-bestanden worden gevalideerd aan de hand van een XSD-schema volgens de ALTO-standaard.
Ook de metadata die door de Service Provider (SP) worden gecreëerd, de volledigheid van het digitale pakket en de vereiste specificaties ervan, worden geautomatiseerd gecontroleerd vooraleer het aanvaard wordt in onze systemen.
Resultaat
Als alle controlestappen succesvol zijn verlopen, kan de SP het digitale pakket aanleveren. Onze systemen controleren als laatste stap nog de volledigheid van het pakket en de vereiste specificaties ervan.
Het resultaat van de digitalisering is een meervoudig object, dus een object met meerdere beeld-, OCR- en metadatabestanden. Hoe dat precies in elkaar zit, lees je hier.