|
Op de site www.cdavid.be vinden we het lastenboek voor digitaliseringsprojecten (de link is
http://www.cdavid.be/index.php/Modellastenboek.html).
De bedoeling van dit lastenboek is kwaliteitseisen op te stellen
waaraan een digitaliseringsproject moet voldoen. Zonder dergelijke
kwaliteitseisen is er natuurlijk een grote kans dat het project, dat
meestal door een externe commerciële firma uitgevoerd wordt, niet de
verhoopte kwaliteit oplevert. Immers, goede kwaliteit kost geld (aan de
uitvoerder). Slechte kwaliteit kost nog veel meer geld, maar dan wel
aan de opdrachtgever.
Een dergelijk lastenboek is dus alleen maar toe te
juichen. Daar het een breed scala van digitaliseringsopdrachten omvat
(teksten, geluid, foto's...) zijn de eisen ook zo opgesteld dat dit
brede scala hiermee afgedekt wordt. We hebben het lastenboek dan ook
met veel interesse gelezen. En in het licht van wat wij hier doen
(digitaliseren van handschrift) vonden we toch wel een eigenaardigheid.
De resolutie en dergelijke kan door de opdrachtgever vrij gekozen
worden, maar het vastleggingsformaat moet TIFF versie 6 zijn. Liefst
lossless tiff, zonder compressie, maar in uitzonderingsgevallen kan wel LZW-
compressie gebruikt worden. En voor boeken en dergelijke dient
multipage tiff gebruikt te worden.
De gedachtengang die hierachter schuilt heeft een zekere
logica. TIFF is een oud en bekend formaat, dat feitelijk uit de
faxwereld komt (als je iets doorfaxt, stuur je feitelijk een tiff-file
door). Voor datacommunicatie over af en toe slechte spraaklijnen heeft
dit voordelen, maar welke voordelen dit oplevert bij het opslaan van
informatie is mij niet duidelijk. De overige voordelen die het
tiff-formaat zou moeten hebben zijn:
- Tiff is een bekend formaat, dat breed ondersteund wordt. Dit klopt voor
tiff versie 4, maar welk programma ondersteunt er tiff versie 6? Dit zijn
er uiterst weinig. Dit wil zeggen dat men de gegevens eerst dient in te scannen
in een ander formaat, en daarna moet converteren naar tiff versie 6. Op zichzelf
is deze "brede ondersteuning" natuurlijk geen argument: deze "brede
ondersteuning" is er ook voor BMP, JPG en andere formaten.
- Tiff is een tagged formaat, waarbij men zelf tags kan toevoegen. Dit klopt,
en heeft voordelen. Slaat men bijvoorbeeld een foto op in tiff-formaat, dan
kan men in deze file allerhande gegevens bij opslaan (wie heeft de foto gemaakt,
wanneer, met welk toestel, en dergelijke). Deze gegevens maken dan deel uit
van de file, en als men de file kopieert worden deze gegevens meegekopieerd.
Voor aparte foto's is dit een duidelijk voordeel (als men tenminste van deze
tags gebruikt maakt: maakt men er geen gebruik van, dan vervalt natuurlijk
het voordeel). Let er echter wel op dat, als de foto door een programma behandeld
wordt, deze tags niet verdwijnen. Men moet dus zeer goed weten wat men doet.
- Tiff is multipage. Men kan dus een volledig boek (bv 500 gescande bladzijden)
als één tiff-bestand opslaan. Hierbij komen dan de tags tot
hun recht: aangezien men maar één bestand heeft, dient men slechts
één set tags in te vullen om de informatie, die men over het
boek heeft, in dit bestand op te slaan. Zou men ieder bladzijde van het boek
als een aparte tiff-file opslaan, dan zou men bij iedere bladzijde deze tags
moeten gaan invullen. Nogal een karwei, en natuurlijk kosten deze tags ook
opslagruimte.
Heeft men een gedrukt boek, dat men wenst in te scannen om het daarna met behulp
van OCR naar een digitale file om te zetten, dan wordt het ingescande boek inderdaad
bewaard als een multipage tiff. Bij het inscannen gebruikt men dan meestal 300
dpi bitonaal (zwart/wit), scant alle bladzijden van het boek achtereenvolgens
in, en bewaart deze scans als een multipage tiff. De benodige opslagruimte is
dan verdedigbaar, aangezien men per pixel slechts één bit nodig
heeft (bij 24 bits kleur zijn dit 24 bits per pixel). Het ingescande boek is
dan echter niet het eindformaat: de multipage tiff wordt dan verwerkt door een
OCR-programma, die het gescande boek omzet in een digitaal bestand (tekst of
Word of een dergelijk formaat). Dit digitaal bestand wordt dan nagelezen, om
de OCR-fouten er trachten uit te halen en de layout juist te krijgen, en dient
feitelijk daarna nog een tweede maal nagelezen te worden. Het tiff-bestand wordt
bewaard als een terugval: indien men later twijfelt aan de juistheid van het
uiteindelijke digitale bestand, kan men de multipage tiff gebruiken als controle.
Bij OCR stelt men vrij lage eisen aan de kwaliteit, daar het OCR-programma alleen
het ingescande beeld moet vertalen naar het juiste karakter. Nu lijkt een gedrukte
"a" altijd meer op een "a" dan op een "b" of een
"c", ook al zou hij vrij misvormd ingescand zijn. Het resultaat van
de OCR hangt dus veel meer af van de drukkwaliteit van het boek dan van de kwaliteit
van het scannen. Bij een pocketboek uit de jaren 1960 zal men een veel slechtere
omzettingskwaliteit krijgen dan bij een recente paperback, gewoon omdat de drukkwaliteit
toen veel slechter was dan nu. De OCR kan dan dikwijls moeilijk onderscheid
maken tussen "i" en "l", of tussen "m" en "rn",
en het foutpercentage stijgt aanzienlijk.
Nemen we als voorbeeld een boek als "In de ban van de Ring" van J.R.R
Tolkien. Als ingebonden pocket telt dit boek ca 1500 pagina's vrij kleine druk
(evenredig met 920 A4-bladzijden geprint in 10 punts courier), en telt het 520.000
woorden. Ingescand in 300 dpi bitonaal, en bewaard als een multipage tiff zonder
compressie, is dit boek een 72 Mb groot. Omgezet naar Word-formaat is het boek
nog 4 Mb groot, en als we het omzetten naar pfd-formaat is het nog slechts 2,14
Mb groot.
Heeft het boek echter foto's, landkaarten of dergelijke, dan kunnen we dit boek
op dezelfde manier inscannen en met OCR digitaliseren, maar dienen we daarna
al dit bijkomend materiaal (foto's, landkaarten...) apart in te scannen en apart
te bewaren. Hiervoor is bitonaal bij lange na niet toereikend, en zullen we
een veel hogere kleurdiepte moeten kiezen, met als gevolg veel grotere bestanden.
Als we dit bijkomend materiaal daarna in het digitale boek opnemen, zal de omvang
van ons digitale boek dan ook veel groter zijn.
Hebben we handschrift, dan kunnen we geen OCR toepassen. We dienen dan het
menselijk oog te gebruiken om van het ingescande blad begrijpelijke tekst te
maken. Welke resolutie en opslagformaat kiezen we hierbij? Dat hangt weer af
van de kwaliteit van het geschrift. Hoe slechter de schriftkwaliteit, of hoe
slechter het contrast tussen de geschreven tekst en het papier, des te hoger
zullen we de resolutie dienen te kiezen, en des te meer electronisch gegoochel
zullen we op het gescande blad moeten loslaten.
Zouden we onze registers echt goed kunnen inscannen (als losse
A3-vellen, in plaats van boeken zoals nu) dan zouden we een scanner
gebruiken met een Dmax van 4.0 of beter (dus een hoog oplossend
vermogen), zouden we scannen op 600 dpi en 24 bits kleur, en zouden we
het resultaat opslaan als jpeg met een compressie van 8. We hebben dan
echt archiefkwaliteit, waarbij de kopie feitelijk niet meer te
onderscheiden is van het origineel. Zoals de situatie nu is, waarbij we
de ingebonden registers dienen te scannen, verliezen we altijd
kwaliteit en informatie aan de ingebonden zijde van het blad. We
gebruiken dan ook een goedkope scanner met een Dmax van 3.2 (wat nog
altijd zeer hoog is), scannen op 300 dpi en 24 bits kleur, en slaan het
resultaat op als jpeg met een compressie van 16. Daar we bij het
inscannen toch kwaliteit verliezen, hebben hogere parameters geen
enkele zin.
Volgens het lastenboek kan de opdrachtgever zelf de resolutie en de kleurdiepte
kiezen, maar dient er opgeslagen te worden in tiff versie 6. Laat ons hier nu
eens iets dieper op deze zaak ingaan. We nemen een willekeurig blad uit een
register (we kozen willekeurig jaar 1849 blad 162B) en scannen dit in op 300
dpi, 24 bits kleur, geen electronische correctie, opslagformaat tiff. Het blad
(2382 * 3440 pixels) kost 23,4 Mb aan opslagruimte. Dit zou het resultaat zijn
dat het lastenboek voorschijft.
Nu doen we dit zo niet, want bij het inscannen gebruiken we steeds de
functie "verscherpen" (waardoor het handschrift scherper afgelijnd
wordt ten opzichte van de achtergrond, en dus duidelijker leesbaar). Of
we verscherpen of niet doet wat opslagruimte bij tiff niet ter zake:
die blijft 23.4 Mb.
Slaan we hetzelfde ingescande blad op als jpeg, compressie 16, dan kost
ons dat 1,98 Mb aan opslagruimte. Zouden we ons echt te buiten gaan aan
kwaliteit, en 600 dpi 24 bits kiezen (4765 * 6881 pixels), en opslaan
als jpeg met compressie 8, dan zou dit blad 11,6 Mb aan
opslagcapaciteit vergen.
Om samen te vatten: het lastenboek schrijft ons een formaat voor
waardoor we voor dit willekeurige blad 23,4 Mb aan opslagkwaliteit
kwijt zijn. Wij leveren nu een ietwat betere kwaliteit (we winnen aan
kwaliteit door het verscherpen, en verliezen daarvan terug iets door de
compressie), en dit kost ons 1,98 Mb (of 8,5% van de
tiff-opslagruimte). Zouden we echter een viermaal betere kwaliteit
leveren (dpi's zijn kwadratisch), dan nog zou ons dit slechts 11,6 Mb
kosten, of de helft van de door het lastenboek voorgeschreven
opslagruimte. Voor dezelfde (of veel minder) opslagruimte kopen we dus
met jpeg een veel betere kwaliteit dan met tiff.
Besluit
We zijn voorstanders van een lastenboek, maar spijtig genoeg
ontslaat dit lastenboek de opdrachtgever niet van de plicht te weten
wat hij wil bereiken. In het lastenboek kan men een aantal belangrijke
parameters (zoals resolutie en kleurdiepte) zelf vrij kiezen. Een
aantal even belangrijke parameters (zoals bijvoorbeeld het oplossend
vermogen van een scanner, of het dynamisch bereik van een fototoestel)
worden helemaal niet vermeld. En een parameter zoals het opslagformaat
(dat feitelijk veel pragmatischer behandeld zou kunnen worden dan
andere parameters) wordt dwingend voorgeschreven op TIFF versie 6 (wat
volgens ons een ongelukkige keuze is, want we kunnen een veel hogere
kwaliteit leveren tegen belangrijk lagere opslagruimte door een
opslagformaat als JPEG te kiezen).
Het lastenboek zou aan kwaliteit
winnen indien er een duidelijk onderscheid gemaakt zou worden tussen
verschillende soorten projecten (gedrukte tekst, handgeschreven tekst,
spraakopname, muziekopname, foto's...), met voor ieder soort project
een duidelijke bespreking van het belang en de samenhang van de
verschillende parameters, de mate waarin de gekozen apparatuur deze
parameters kan vervullen of er beperkingen aan oplegt, en mogelijk wat
praktijkvoorbeelden.
|