circle-persian-green io-persian-green circle-curious-blue

Controleren of een item gearchiveerd is

Laad je via een continue instroomproject zelf bestanden op in het meemoo-archiefsysteem, via de meemoo-FTP-server, dan vragen we je om de archiveringsstatus van je items zelf te controleren. Dit werd ook zo vastgelegd in de samenwerkingsovereenkomst. Hiervoor kan je de folders op de FTP controleren of geautomatiseerd de archiveringsstatus checken via de OAI-PMH API.

De FTP folders

Als je een continue-instroomtraject met meemoo hebt opgezet, en bestanden aanlevert ter archivering via de meemoo-FTP-server, zal je zien dat er op de FTP-server meerdere folders staan. Deze hebben allemaal een specifieke functie en kunnen je helpen bij het achterhalen waarom een bestand (nog) niet gearchiveerd werd.

Hoofdfolder (incoming/borndigital)

In deze folder leveren jullie de bestanden (essences) en bijhorende metadata-XML aan.
Een tip hierbij: laad eerst de essence op (eventueel met een .filepart-extensie), want het duurt vaak langer om de essences op te laden dan de XML-bestanden. Als er te veel tijd tussen het volledig opladen van deze twee zit, kan het zijn dat de watchfolder het pair als incomplete ziet en de metadata al naar de Incomplete folder heeft verplaatst (zie verder).

Processing (incoming/borndigital/Processing)

Nadat een pair (essence en metadata-XML) wordt opgeladen in de hoofdfolder zal dit via een automatisch proces verplaatst worden naar de Processing folder.
Van hieruit zullen de bestanden doorstromen naar het meemoo-archiefsysteem. Hierin mogen dus in theorie geen bestanden blijven staan. 

Incomplete (incoming/borndigital/Incomplete) 

In deze folder komen alle bestanden terecht die niet als pair (essence en metadata-XML) werden aangeleverd. In deze gevallen hebben we dus enkel de essence of enkel de metadata ontvangen.

Bestanden kunnen ook in deze folder terecht komen als er, bijvoorbeeld, een verschil in de bestandsnaam zat, of - zoals hierboven al vermeld - wanneer er te veel tijd zat tussen het opladen van de essence en het XML-bestand. Het is belangrijk om deze folder regelmatig te controleren. Bestanden die hierin komen te staan worden namelijk niet gearchiveerd!

Refused (incoming/borndigital/refused)

In deze folder komen alle bestanden met een extensie die bij continue instroom niet wordt toegelaten voor instroom.

Momenteel zijn de toegestane bestandsextensies: .jpg, .tiff, .tif, .mxf, .mov, .mp4, .mp3, .wav, .jp2, .jpeg, .mp2, .mpg, .ogg ,.ts, .m4v. Alle andere extensies komen dus hier terecht en worden niet gearchiveerd!

Failed (incoming/borndigital/FAILED)

Deze folder is nieuw en zijn we nu aan het uittesten. Momenteel komen hier de bestanden in terecht die langer dan 3 weken zijn blijven staan op de FTP zonder in te stromen. Dit is de maximumperiode dat een bestand nodig zou hebben om door de ingest te raken, als deze periode wordt overschreden is er naar alle waarschijnlijkheid iets mis met het bestand zelf.

Voor deze folder werken we intern bij meemoo ook aan meer gedetailleerde rapportering. Zo hopen we in de toekomst jullie ook een beter zicht te kunnen geven op de redenen waarom een bestand faalde tijdens het instroomproces. Hierover hebben we naar alle betrokken contentpartners ook apart gecommuniceerd. 

Hoe kan ik controleren of een bestand correct gearchiveerd is?

Via de OAI-PMH API kan je geautomatiseerd de archiveringsstatus van je items ophalen. Zo kan je vlot vaststellen of een item wel correct gearchiveerd werd bij meemoo.

Om dit proces op te zetten heb je de unieke identifier of de (in meemoo-termen) ‘hoofd lokale CP ID’  nodig die je aanleverde in de metadata van het item. Het controleproces houdt in dat je een lijst van alle recent gewijzigde of toegevoegde items opvraagt, de metadata van de items bekijkt en de archiveringsstatus eruit haalt en opslaat. We raden aan om nog een kopie van de bestanden bij te houden in jullie eigen archief tot je via de API bevestigd hebt dat het bestand correct gearchiveerd werd.

Ga naar de algemene OAI-PMH documentatie

Stap 1: vraag een lijst op van recent gewijzigde bestanden

Via het OAI-PMH-protocol kan je een lijst opvragen van de metadata die bij meemoo opgeslagen zijn. We omschrijven hieronder de call die moet gebeuren naar de API.

We werken hiervoor met ‘from’ (en optioneel ‘until’) binnen het ListRecords verb. Neem als interval best 1 uur of langer.

  • Request: https://archief.viaa.be/mediahaven-oai/oai?verb=ListRecords&metadataPrefix=mets&from=YYYY-MM-DDTHH:mm:ss&until=YYYY-MM-DDTHH:mm:ss
  • Response: De lijst van alle records die tussen ‘from’ en ‘until’ 00m en 59s gewijzigd of toegevoegd zijn, in XML. Per record wordt alle metadata teruggegeven.

Stap 2: verwerk de lijst die je terugkrijgt en controleer de status

Verwerk de records die teruggegeven worden en ga na of jouw identifier teruggevonden wordt. Indien je de hoofd_lokale CP ID gebruikt, vind je deze onder <dc_identififer_localid>.

In functie daarvan zijn er twee mogelijkheden:

  1. De identifier wordt niet teruggevonden in de respons: het item in kwestie is nog 'in transit' en dus niet gearchiveerd door meemoo. Dat is mogelijk als er bijvoorbeeld een interventie plaatsvindt op het meemoo-archief. Als deze situatie langer dan 72 uur aanhoudt, kan je ons best contacteren via support@meemoo.be.
  2. De identifier wordt teruggevonden in het antwoord. Controleer dan het veld <archivestatus> in de respons. Mogelijke waarden hier zijn:
    1. Failed: er is een fout opgetreden tijdens de import van het materiaal. Neem contact op met jouw projectmanager of support@meemoo.be.
    2. In_progress: het item wordt momenteel nog verwerkt.
    3. On_tape (PRD) / on_disk (QAS) of completed: het item is succesvol gearchiveerd! Voor de testomgeving (QAS) wordt niet naar tape geschreven, maar naar disk.

Wat doet meemoo?

In de samenwerkingsovereenkomst werd vastgelegd dat het de verantwoordelijkheid is van de contentpartners om te controleren of een item dat via continue instroom werd aangeleverd correct gearchiveerd werd. Maar dit wil niet zeggen dat meemoo zelf niets doet om de archivering te controleren.

Wij voeren regelmatig ook routinecontroles uit van het materiaal dat op de FPT-server staat en in 2023 werd een nieuwe FTP-folder in het leven geroepen: de Failed-folder. 

Hierin zullen alle bestanden terechtkomen die langer dan 3 weken zijn blijven staan op de FTP-server zonder in te stromen. Dit is de maximumperiode die een bestand nodig zou hebben om door de ingest te raken. De bedoeling is om op termijn ook automatisch bestanden te gaan verwijderen wanneer die langer dan zes weken op de FTP-server zijn blijven staan. Het is dus belangrijk dat jullie zelf goed nagaan welke bestanden zijn blijven staan en dus niet gearchiveerd konden worden!

Daarnaast beschikt meemoo ook over rapportering van wat op de FTP staat, welke bestanden naar de ‘Failed’ folder werden verplaatst en waarom bestanden faalden tijdens het instroomproces. Zo hopen we, wanneer jullie signaleren dat er een probleem is, ook een beter inzicht te kunnen geven op de redenen waarom een bestand faalde. Hiervoor kan je jouw projectmanager of support@meemoo.be contacteren.