Het lastenboek digitalisatie

Op de site www.cdavid.be vinden we het lastenboek voor digitaliseringsprojecten (de link is http://www.cdavid.be/index.php/Modellastenboek.html). De bedoeling van dit lastenboek is kwaliteitseisen op te stellen waaraan een digitaliseringsproject moet voldoen. Zonder dergelijke kwaliteitseisen is er natuurlijk een grote kans dat het project, dat meestal door een externe commerciële firma uitgevoerd wordt, niet de verhoopte kwaliteit oplevert. Immers, goede kwaliteit kost geld (aan de uitvoerder). Slechte kwaliteit kost nog veel meer geld, maar dan wel aan de opdrachtgever.

Een dergelijk lastenboek is dus alleen maar toe te juichen. Daar het een breed scala van digitaliseringsopdrachten omvat (teksten, geluid, foto's...) zijn de eisen ook zo opgesteld dat dit brede scala hiermee afgedekt wordt. We hebben het lastenboek dan ook met veel interesse gelezen. En in het licht van wat wij hier doen (digitaliseren van handschrift) vonden we toch wel een eigenaardigheid. De resolutie en dergelijke kan door de opdrachtgever vrij gekozen worden, maar het vastleggingsformaat moet TIFF versie 6 zijn. Liefst lossless tiff, zonder compressie, maar in uitzonderingsgevallen kan wel LZW- compressie gebruikt worden. En voor boeken en dergelijke dient multipage tiff gebruikt te worden.

De gedachtengang die hierachter schuilt heeft een zekere logica. TIFF is een oud en bekend formaat, dat feitelijk uit de faxwereld komt (als je iets doorfaxt, stuur je feitelijk een tiff-file door). Voor datacommunicatie over af en toe slechte spraaklijnen heeft dit voordelen, maar welke voordelen dit oplevert bij het opslaan van informatie is mij niet duidelijk. De overige voordelen die het tiff-formaat zou moeten hebben zijn:

  1. Tiff is een bekend formaat, dat breed ondersteund wordt. Dit klopt voor tiff versie 4, maar welk programma ondersteunt er tiff versie 6? Dit zijn er uiterst weinig. Dit wil zeggen dat men de gegevens eerst dient in te scannen in een ander formaat, en daarna moet converteren naar tiff versie 6. Op zichzelf is deze "brede ondersteuning" natuurlijk geen argument: deze "brede ondersteuning" is er ook voor BMP, JPG en andere formaten.
  2. Tiff is een tagged formaat, waarbij men zelf tags kan toevoegen. Dit klopt, en heeft voordelen. Slaat men bijvoorbeeld een foto op in tiff-formaat, dan kan men in deze file allerhande gegevens bij opslaan (wie heeft de foto gemaakt, wanneer, met welk toestel, en dergelijke). Deze gegevens maken dan deel uit van de file, en als men de file kopieert worden deze gegevens meegekopieerd. Voor aparte foto's is dit een duidelijk voordeel (als men tenminste van deze tags gebruikt maakt: maakt men er geen gebruik van, dan vervalt natuurlijk het voordeel). Let er echter wel op dat, als de foto door een programma behandeld wordt, deze tags niet verdwijnen. Men moet dus zeer goed weten wat men doet.
  3. Tiff is multipage. Men kan dus een volledig boek (bv 500 gescande bladzijden) als één tiff-bestand opslaan. Hierbij komen dan de tags tot hun recht: aangezien men maar één bestand heeft, dient men slechts één set tags in te vullen om de informatie, die men over het boek heeft, in dit bestand op te slaan. Zou men ieder bladzijde van het boek als een aparte tiff-file opslaan, dan zou men bij iedere bladzijde deze tags moeten gaan invullen. Nogal een karwei, en natuurlijk kosten deze tags ook opslagruimte.

Heeft men een gedrukt boek, dat men wenst in te scannen om het daarna met behulp van OCR naar een digitale file om te zetten, dan wordt het ingescande boek inderdaad bewaard als een multipage tiff. Bij het inscannen gebruikt men dan meestal 300 dpi bitonaal (zwart/wit), scant alle bladzijden van het boek achtereenvolgens in, en bewaart deze scans als een multipage tiff. De benodige opslagruimte is dan verdedigbaar, aangezien men per pixel slechts één bit nodig heeft (bij 24 bits kleur zijn dit 24 bits per pixel). Het ingescande boek is dan echter niet het eindformaat: de multipage tiff wordt dan verwerkt door een OCR-programma, die het gescande boek omzet in een digitaal bestand (tekst of Word of een dergelijk formaat). Dit digitaal bestand wordt dan nagelezen, om de OCR-fouten er trachten uit te halen en de layout juist te krijgen, en dient feitelijk daarna nog een tweede maal nagelezen te worden. Het tiff-bestand wordt bewaard als een terugval: indien men later twijfelt aan de juistheid van het uiteindelijke digitale bestand, kan men de multipage tiff gebruiken als controle.

Bij OCR stelt men vrij lage eisen aan de kwaliteit, daar het OCR-programma alleen het ingescande beeld moet vertalen naar het juiste karakter. Nu lijkt een gedrukte "a" altijd meer op een "a" dan op een "b" of een "c", ook al zou hij vrij misvormd ingescand zijn. Het resultaat van de OCR hangt dus veel meer af van de drukkwaliteit van het boek dan van de kwaliteit van het scannen. Bij een pocketboek uit de jaren 1960 zal men een veel slechtere omzettingskwaliteit krijgen dan bij een recente paperback, gewoon omdat de drukkwaliteit toen veel slechter was dan nu. De OCR kan dan dikwijls moeilijk onderscheid maken tussen "i" en "l", of tussen "m" en "rn", en het foutpercentage stijgt aanzienlijk.

Nemen we als voorbeeld een boek als "In de ban van de Ring" van J.R.R Tolkien. Als ingebonden pocket telt dit boek ca 1500 pagina's vrij kleine druk (evenredig met 920 A4-bladzijden geprint in 10 punts courier), en telt het 520.000 woorden. Ingescand in 300 dpi bitonaal, en bewaard als een multipage tiff zonder compressie, is dit boek een 72 Mb groot. Omgezet naar Word-formaat is het boek nog 4 Mb groot, en als we het omzetten naar pfd-formaat is het nog slechts 2,14 Mb groot.

Heeft het boek echter foto's, landkaarten of dergelijke, dan kunnen we dit boek op dezelfde manier inscannen en met OCR digitaliseren, maar dienen we daarna al dit bijkomend materiaal (foto's, landkaarten...) apart in te scannen en apart te bewaren. Hiervoor is bitonaal bij lange na niet toereikend, en zullen we een veel hogere kleurdiepte moeten kiezen, met als gevolg veel grotere bestanden. Als we dit bijkomend materiaal daarna in het digitale boek opnemen, zal de omvang van ons digitale boek dan ook veel groter zijn.

Hebben we handschrift, dan kunnen we geen OCR toepassen. We dienen dan het menselijk oog te gebruiken om van het ingescande blad begrijpelijke tekst te maken. Welke resolutie en opslagformaat kiezen we hierbij? Dat hangt weer af van de kwaliteit van het geschrift. Hoe slechter de schriftkwaliteit, of hoe slechter het contrast tussen de geschreven tekst en het papier, des te hoger zullen we de resolutie dienen te kiezen, en des te meer electronisch gegoochel zullen we op het gescande blad moeten loslaten.

Zouden we onze registers echt goed kunnen inscannen (als losse A3-vellen, in plaats van boeken zoals nu) dan zouden we een scanner gebruiken met een Dmax van 4.0 of beter (dus een hoog oplossend vermogen), zouden we scannen op 600 dpi en 24 bits kleur, en zouden we het resultaat opslaan als jpeg met een compressie van 8. We hebben dan echt archiefkwaliteit, waarbij de kopie feitelijk niet meer te onderscheiden is van het origineel. Zoals de situatie nu is, waarbij we de ingebonden registers dienen te scannen, verliezen we altijd kwaliteit en informatie aan de ingebonden zijde van het blad. We gebruiken dan ook een goedkope scanner met een Dmax van 3.2 (wat nog altijd zeer hoog is), scannen op 300 dpi en 24 bits kleur, en slaan het resultaat op als jpeg met een compressie van 16. Daar we bij het inscannen toch kwaliteit verliezen, hebben hogere parameters geen enkele zin.

Volgens het lastenboek kan de opdrachtgever zelf de resolutie en de kleurdiepte kiezen, maar dient er opgeslagen te worden in tiff versie 6. Laat ons hier nu eens iets dieper op deze zaak ingaan. We nemen een willekeurig blad uit een register (we kozen willekeurig jaar 1849 blad 162B) en scannen dit in op 300 dpi, 24 bits kleur, geen electronische correctie, opslagformaat tiff. Het blad (2382 * 3440 pixels) kost 23,4 Mb aan opslagruimte. Dit zou het resultaat zijn dat het lastenboek voorschijft.

Nu doen we dit zo niet, want bij het inscannen gebruiken we steeds de functie "verscherpen" (waardoor het handschrift scherper afgelijnd wordt ten opzichte van de achtergrond, en dus duidelijker leesbaar). Of we verscherpen of niet doet wat opslagruimte bij tiff niet ter zake: die blijft 23.4 Mb.
Slaan we hetzelfde ingescande blad op als jpeg, compressie 16, dan kost ons dat 1,98 Mb aan opslagruimte. Zouden we ons echt te buiten gaan aan kwaliteit, en 600 dpi 24 bits kiezen (4765 * 6881 pixels), en opslaan als jpeg met compressie 8, dan zou dit blad 11,6 Mb aan opslagcapaciteit vergen.

Om samen te vatten: het lastenboek schrijft ons een formaat voor waardoor we voor dit willekeurige blad 23,4 Mb aan opslagkwaliteit kwijt zijn. Wij leveren nu een ietwat betere kwaliteit (we winnen aan kwaliteit door het verscherpen, en verliezen daarvan terug iets door de compressie), en dit kost ons 1,98 Mb (of 8,5% van de tiff-opslagruimte). Zouden we echter een viermaal betere kwaliteit leveren (dpi's zijn kwadratisch), dan nog zou ons dit slechts 11,6 Mb kosten, of de helft van de door het lastenboek voorgeschreven opslagruimte. Voor dezelfde (of veel minder) opslagruimte kopen we dus met jpeg een veel betere kwaliteit dan met tiff.

Besluit

We zijn voorstanders van een lastenboek, maar spijtig genoeg ontslaat dit lastenboek de opdrachtgever niet van de plicht te weten wat hij wil bereiken. In het lastenboek kan men een aantal belangrijke parameters (zoals resolutie en kleurdiepte) zelf vrij kiezen. Een aantal even belangrijke parameters (zoals bijvoorbeeld het oplossend vermogen van een scanner, of het dynamisch bereik van een fototoestel) worden helemaal niet vermeld. En een parameter zoals het opslagformaat (dat feitelijk veel pragmatischer behandeld zou kunnen worden dan andere parameters) wordt dwingend voorgeschreven op TIFF versie 6 (wat volgens ons een ongelukkige keuze is, want we kunnen een veel hogere kwaliteit leveren tegen belangrijk lagere opslagruimte door een opslagformaat als JPEG te kiezen).

Het lastenboek zou aan kwaliteit winnen indien er een duidelijk onderscheid gemaakt zou worden tussen verschillende soorten projecten (gedrukte tekst, handgeschreven tekst, spraakopname, muziekopname, foto's...), met voor ieder soort project een duidelijke bespreking van het belang en de samenhang van de verschillende parameters, de mate waarin de gekozen apparatuur deze parameters kan vervullen of er beperkingen aan oplegt, en mogelijk wat praktijkvoorbeelden.