|
Sinds Google begonnen is met het scannen en
digitaliseren van archieven, zitten boekscanners duidelijk in de lift.
Nemen we één voorbeeld: de universiteit van Michigan heeft een
digitaliseringsproject lopen voor hun bibliotheek. Momenteel scannen en
digitaliseren ze 5000 boeken per jaar (wat toch een respectabel aantal
is, waarvan wij alleen maar kunnen dromen), en in dit tempo zullen ze
binnen 1600 jaar klaar zijn. Zo gaat dat, als je 8 miljoen boeken staan
hebt. Door hun samenwerking met Google plannen ze de klus nu op 6 jaar
te klaren.
Dit gaat uiteraard over gedrukte boeken, waarvoor je OCR kan toepassen.
Je scant een dubbelblad in, laat er een hoop electronische correcties op
los, jaagt het door een OCR-proces, en je hebt het boek als een pdf-file
die je electronisch kunt doorzoeken of over internet beschikbaar
stellen. Voor een universiteitsbibliotheek lijkt dit logisch, want voor
wetenschappelijk onderzoek dien je op sleutelwoorden te kunnen zoeken.
Als resultaat verwacht je dan ook iets wat je dadelijk electronisch
(liefst over internet, of het lokale universiteitsnetwerk) kunt
raadplegen. Maar wat brengt ons dit, als gewone burger, op?
Momenteel hebben we in iedere gemeente wel een
bibliotheek. We gaan daar naartoe, lopen wat verloren tussen de rekken,
kiezen uiteindelijk een paar boeken waarvan de titel of de omslag ons
aanstaan, en gaan daarmee naar huis. Na een aantal weken moeten we ze
terugbrengen, en meestal hebben we er een paar ervan ook werkelijk
gelezen. De overige waren toch niet wat we ervan hoopten.
We hebben momenteel de techniek om deze boeken in massa
in te scannen en om te zetten in pdf-formaat. Voor nieuwe boeken hoeven
we dit zelfs niet, want ieder boek wordt momenteel reeds jarenlang
electronisch aangemaakt, en kan dus feitelijk in een electronisch
formaat beschikbaar gesteld worden. Er is dus geen enkele technische
reden meer om niet één Vlaamse bibliotheek te maken, die 7 dagen per
week, 24 uur per dag open is, en waarvan de de (electronische) boeken
over internet kunnen ontleend worden. Terugbrengen hoeft helemaal niet
meer, want na de ontleentermijn wordt de ontleende kopie toch
automatisch onleesbaar, en kunnen we ze weggooien.
 |
Maar wie wil er nu een boek lezen op zijn computer? Ook dat
hoeft niet meer. Ondertussen is reeds enkele jaren de
ebook-reader op de markt, wat in feite een goedkoop scherm is
van electronisch papier, in een stevig plastic omhulsel, met wat
toetsen voor de navigatie, een slot voor een geheugenkaart en
een draadloze verbinding. Door het toepassen van e-ink
technologie is het contrast van het scherm hetzelfde als van een
gedrukt vel papier (wat een veel hoger contrast biedt dan een
TFT-scherm), en ligt het stroomverbruik een factor 100 lager dan
van een TFT-scherm. Een gemiddeld boek van een 250 bladzijden is
electronisch ongeveer een megabyte groot, dus op een SD-stickje
van 1 Gb kan je een 1000 boeken opslaan.
Je kan natuurlijk nog veel meer doen. Stel bv dat de NMBS zijn
rijtuigen zou uitrusten met een hotspot. Je krijgt dan op je
reader automatisch je kranten en weekbladen gedownload waarop je
een abonnement hebt. Maar je zou je kunnen abonneren op Het
Laaste Nieuws voor het globale nieuws, op Het Belang van Limburg
voor het regionale nieuws, en op het Nieuwsblad voor de sport.
Je hoeft niet één krant meer te hebben voor alles, je kan
selectief zijn.
Ieder jaar is er wel een programma op TV over de schoolkinderen
die met veel te zware boekentassen moeten zeulen. Een hotspot in
ieder klaslokaal, en je hebt alleen nog maar je readertje nodig.
Je schoolboeken worden automatisch op je reader gedownload. Je
huiswerk verdwijnt automatisch naar de klascomputer.
Technisch is het allemaal geen probleem meer. We zitten alleen
weer met de-kip-en-het-ei verhaal. Zolang er geen digitale
inhoud beschikbaar is, kopen we geen reader. En waarom zouden we
digitale inhoud beschikbaar stellen? Er is toch niemand die een
reader heeft.
|
Daarom is er reeds jaren het Gutenberg-project, waarbij boeken
electronisch op internet downloadbaar gesteld worden. Daarom ook dat
Google begonnen is boeken in te scannen, met natuurlijk een hoop
tegenwerking van kortzichtige uitgevers, die niet snappen dat dit het
beste is wat hen kan overkomen (vermindering van kosten opent altijd een
veel grotere markt). Hier ten lande hebben we natuurlijk ook niet veel
steun aan de Vlaamse regering, die alles wat ze doet denkelijk wel beter
zal doen, maar blijkbaar niet beseft dat ze iets moet doen. Het is echt
moeilijk om aan de middeleeuwen te ontsnappen.
Soorten boekscanners
Daar de tijd rijp is, zijn er de laatste jaren verschillende types
boekscanners op de markt gekomen, en is er echt innovatie op dit gebied
te bespeuren. De standaard blijkt duidelijk naar 300 dpi en 24 bits
kleur te gaan. Andere design-criteria zijn:
- nadat een blad (of dubbelblad) gescand is, dient het blad dan
handmatig omgedraaid te worden, of gaat dit automatisch?
- wordt het blad (of dubbelblad) ineens opgenomen (gefotografeerd), of
wordt het lijn per lijn ingescand?
- ligt het boek vlak (180° geopend), of ligt het in een V-vorm (geopend
onder een hoek van 110° of 120°)?
Deze design-criteria geven een kwalitatief resultaat (zoals gezegd
meestal 300 dpi, 24 bits kleur, of iets wat daarvoor moet doorgaan), een
snelheid (van 80 tot 3000 dubbelbladzijden per uur) en een prijs (van
enkele tienduizenden tot over de 200.000 euro).
Om een idee te geven laten we enkele boekscanners zien, en bespreken we
de kenmerken ervan.
Plustek Opticbook 3600
 |
De meest simpele boekscanner is de Plustek Opticbook 3600. Het
is een gewone flatbedscanner, waarbij het glas echter doorloopt
tot vlak tegen de rand van de scanner, en waarbij de lamp, die
de belichting geeft, iets breder is dan de scannerbreedte en aan
deze rand onder een hoek van 90° naar beneden omgebogen is,
zodat deze hoek extra belichting krijgt. Het is een zeer snelle
scanner (iets meer dan 3 seconden per scan), die speciaal
gemaakt is om met hoge snelheid boeken in te scannen en ze
daarna met OCR te digitaliseren.
Daar de bladzijden na elkaar gescand worden (na een linkerblad
volgt een rechterblad) is de software in staat om automatisch
ieder tweede blad 180° te draaien, zodat in de bekomen
tiff-file alle gescande bladzijden rechtop staan. |
 |
Een goed idee, en een betaalbare boekscanner (ca 200 euro). De
gebruikers zijn ofwel zeer enthousiast over dit product, ofwel hebben ze
er geen goed woord voor over. Wat zijn de nadelen?
- er blijft een rand van 6 millimeter tussen de rand van de scanner en
de glasplaat, dus de 6 mm tegen de boekbinding kunnen niet meegescand
worden. Voor een gedrukt boek (dat een brede marge heeft) is dit geen
probleem. Voor akten in handschrift, waarbij het schrift dikwijls
doorloopt tot vlak tegen de boekbinding, is dit dodelijk.
- de scankwaliteit ligt uiterst laag, zelfs lager dan deze van de
goedkoopste low-cost scanners. Voor OCR, waar de scankwaliteit niet echt
belangrijk is, is dit geen groot probleem. Voor handschrift, waar men
een kwalitatief hoogstaande scan wil hebben, is dit natuurlijk een
andere zaak. Blijkbaar heeft men de kwaliteit volledig opgeofferd aan de
snelheid.
- de niet-enthousiaste gebruikers klagen over een slechte
productkwaliteit (het apparaat gaat snel stuk), slechte driver-software
die de computer af en toe ophangt, slechte toepassingssoftware (software
loopt regelmatig vast), slechte ondersteuning van de fabrikant.
Het idee is dus goed, de uitwerking ervan lijkt nogal wat te wensen over
te laten. Het machine is typisch bedoeld om gedrukte boeken te
digitaliseren met behulp van OCR. Voor handgeschreven akten is het
spijtig genoeg niet bruikbaar.
Atiz Do it
yourself
De firma Atiz brengt een Bookdrive
DIY (do it yourself) op de markt. We stellen het hier voor wegens de
simpelheid van het apparaat.
 |
In feite bestaat dit apparaat uit een frame, waarop de
volgende onderdelen gemonteerd worden:
- onderaan merken we de cradle op, waarin het boek gelegd wordt.
Het boek ligt open onder een hoek van 120°.
- in het midden worden twee camera's gemonteerd. Het moeten
Canon EOS-camera's zijn, maar de gebruiker kan het type zelf
kiezen. Onze voorkeur zou uitgaan naar de EOS 400D, 10
megapixel, wegens zijn grote APS-C sensor en relatief lage
kostprijs. Een EOS 5D met een 35 mm sensor is natuurlijk
duidelijk beter, maar de kostprijs ervan ligt dan ook véél
hoger.
De linkse camera is gericht op de rechterbladzijde van het boek,
de rechtse camera op de linkerbladzijde. Als lens gebruikt men
standaard een Canon EF 50 mm vaste lens, wat een logische keuze
is om tekst te fotograferen.
- bovenaan, onder het afdekzeil, is een toestel met twee lampen
gemonteerd. Iedere lamp is gericht op een bladzijde van het
boek.
Het toestel kost 3600$ voor het standaardmodel (zonder
camera's).
|
De camera's worden via een USB-hub aangesloten aan een computer. De
bijbehorende software toont het real-time beeld van de twee bladzijden
op het scherm. Men maakt in feite een foto (tegelijk één van het
linkse en één van het rechtse blad), slaat dan een blad om, en
herhaalt dit proces tot het boek helemaal klaar is. Men kan een
timer-hulpstuk verkrijgen, waarmee men de camera's automatisch na een
vastgesteld aantal seconden een foto kan laten nemen. Men dient dan
alleen nog maar na de biep het blad om te slaan.
 |
Waarin de innovatie van dit apparaat ligt, is in de cradle.
Het boek wordt opengeslagen in een houder gelegd, en daarna
wordt een V-vormige plexiplaat naar beneden op de bladzijden van
het boek gedrukt. Deze plexi dient natuurlijk om de bladzijden
vlak te drukken, maar heeft ook een centrerende functie. Als men
een tamelijk dik boek gaat scannen, verschuift tijdens het
scannen de deelnaad tussen de linkse en rechtse bladzijde. Bij
het begin van het boek ligt deze deelnaad helemaal links, en
naargelang men in het boek vordert verschuift deze deelnaad naar
rechts (is het boek bv 5 cm dik, dan verschuift deze deelnaad
over 5 cm). Hierdoor zou men constant de camera's moeten
bijregelen, zodat ze maximaal de hun toegewezen bladzijde in
beeld kunnen houden. Bij dit apparaat is dit opgelost door de
boekhouder vlottend te laten. Als de V-vormige plexiplaat dan
naar beneden gedrukt wordt, wordt de boekhouder automatisch over
de juiste lengte naar links of rechts gedrukt, zodat men de
camera's niet hoeft bij te regelen. |
De Bookdrive DIY lost dus twee problemen op, waarvoor men anders een
softwarematige oplossing moet zoeken:
- het blad wordt vlak gedrukt door de V-vormige plexiplaat. Men moet dus
niet meer softwarematig corrigeren voor een bol-liggende bladzijde.
- de deelnaad tussen de linkse en rechtse bladzijde ligt altijd op
dezelfde plaats, zodat men de camera's niet constant hoeft bij te
regelen.
Na het scannen van het boek begint het eigenlijke werk: cropping (uit
de genomen foto de juiste bladzijde knippen), deskewing (de bladzijde
recht trekken), despeckling (puntjes en onzuiverheden uit het blad
halen), resizing (op de juiste grootte brengen) en dan natuurlijk OCR om
de tekst te digitaliseren. Het toestel is duidelijk bedoeld om gedrukte
boeken in te scannen en te digitaliseren mbv OCR. Er is ook een
goedkopere Booksnap van $1500, waarop alleen Canon Powershot-camera's
gebruikt kunnen worden, en dat daardoor uitsluitend bruikbaar is voor
gedrukte boeken.
Men zou het toestel kunnen gebruiken om handgeschreven akten in te
scannen. In principe zou men, bij gebruik van een goede digitale camera,
hetzelfde resultaat kunnen halen als met de hieronder genoemde
Kirtas-machines, omdat het werkingsprincipe en de constructie
gelijkaardig zijn. Het voordeel van deze machine is dat het te
fotograferen blad vlak ligt, omdat het door de plexiplaat tegen de
craddle gedrukt wordt. Echter, deze plexiplaat bestaat feitelijk uit
twee stukken, die onder een hoek van 120° tegen elkaar gezet zijn. De
vraag is dus wat men precies in de deelnaad van het boek, waar de
plexiplaten tegen elkaar gezet zijn, nog kan zien. Bij oude
handgeschreven aktes loopt het schrift dikwijls door tot helemaal in de
deelnaad van het boek, wat bij gedrukte boeken nooit het geval is.
Denkelijk zal de vervorming op de plaats waar de twee plexiplaten tegen
elkaar gezet zijn, zo groot zijn dan het toestel mogelijk onbruikbaar is
om handgeschreven akten te digitaliseren.
Kirtas en
4digitalbooks
De echt zware jongens zijn de machines van Kirtas
en 4digitalbooks. Hier vinden
we de snelle, automatische boekscanners in de prijsreeks van 90.000 tot
225.000$.
 |
De Kirtas-machines zien er zo'n beetje uit als de Bookdrive
DIY, maar dan wel in een professionele versie. We zien hier een
heel wat ingewikkelder boekhouder, een echt goede belichting
(waarmee de kwaliteit van de foto staat of valt), en bovenop de
machine de camera (twee in dit model).
Kirtas verkoopt als modellen de ATP 800, 1200 en 2400,
waarbij het getal staat voor het aantal bladzijden dat per uur
gescand kan worden. De ATP 800 is het kleine, niet-automatische
broertje.
Kirtas gebruikt in zijn scanners Canon EOS-camera's van 12.8
en 16.6 megapixel. Het model ATP 800 en ATP 1200 hebben een
enkele 12,8 megapixel camera, het model ATP 2400 heeft een
dubbele 16,6 megapixel camera.
Rechts zien we een deel van een handscrift-scan. Daar men
topkwaliteit camera's gebruikt krijgt men een goede kwaliteit.
|
 |
 |
De machines van 4digitalbooks zijn de echt zware jongens, met
hoge kwaliteit. Ze zijn volledig geautomatiseerd. De afmetingen
van het boek worden door de machine automatisch vastgesteld. Het
boek wordt automatisch gecentreerd. De cradle waarop het boek
ligt bestaat uit twee delen, die zich in hoogte aanpassen, zodat
de twee te scannen bladzijden automatisch op dezelfde hoogte
liggen, hoe dik het boek ook is. De kaft van het boek wordt door
vacuum aan de cradle gezogen. Bij het omslaan van het blad wordt
het om te draaien blad eerst door vacuum omhooggezogen, waarna
het omgeslagen wordt door een mechanisme, dat in feite een
luchtdruk-muur vormt tussen zichzelf en het om te slagen blad.
De snelheid van scannen wordt automatisch ingesteld op basis van
de gewenste resolutie.
De machine gebruikt geen camera-sensoren, maar lineaire
CCD-cellen van 5000, 6000 of 10000 pixels. Het blad wordt dus
lijn per lijn afgescand, met drie kleurmetingen per pixel (zoals
een scanner). Men kan dus een echte resolutie halen tot 600 dpi,
maar dit brengt de scansnelheid natuurlijk omlaag (tot 300
bladzijden per uur). De firma raadt echter deze resolutie aan
voor "preservation" (de scans die als moederkopie
bewaard worden), en terecht.
Een topmodel weegt 1200 kilo, verbruikt 10 kilowatt en kost
meer dan 200.000 euro.
|
 |
|
Andere
boekscanners
Ook andere fabrikanten hebben boekscanners (Zeutschel,
Bookeye,
Minolta).
Dit zijn allemaal handmatige scanners, die op hetzelfde principe
gebaseerd zijn. Het boek ligt op een vlakke tafel (soms een gedeelde
tafel, zodat men de beide in te scannen bladen in hetzelfde horizontale
vlak kan brengen), met bovenaan ofwel een camera-sensor of een lineaire
CCD-sensor, en belichting ofwel bovenaan ofwel aan de zijkanten. Als
voorbeeld geven we de Bookeye 3, een interessant apparaat.
 |
De Bookeye 3 van Image Access heeft een lineaire CCD-sensor
(zoals een scanner) en is in staat optisch 400 dpi te halen over
een A1-oppervlak. De belichting gebeurt door twee gemotoriseerde
LED-balken, met een lichtopbrengst van 4500 lux, die precies die
plaats belichten die op dat ogenblik gescand wordt. De tafel
bestaat uit twee delen, die gemotoriseerd in hoogte versteld
kunnen worden, zodat de te scannen bladzijden in hetzelfde
horizontale vlak gebracht kunnen worden. Het toestel weegt 60
kilo en verbruikt tijdens het scannen 275 watt. Een scan (altijd
het volledige A1-formaat) kost 7,5 seconden. Het toestel wordt
aangesloten op het netwerk. De kostprijs ligt rond de 30.000$.
Specifiek aan de Bookeye 3 is dat het een ingebouwde
laser-afstandsmeter heeft. Als men niet scant, trekt de laser
een rode laserlijn over het boek. Deze laserlijn dient voor de
gebruiker om het boek recht te leggen, en geeft ook aan waar de
gebruiker het blad met zijn duim neergedrukt kan houden (de
software verwijdert dan automatisch de ingescande duim uit de
marge). Met deze laserlijn bepaalt de scanner ook de afstand tot
het boek, het hoogteverschil over de te scannen lengte (het blad
kan immers bol in plaats van vlak liggen, en beide bladen kunnen
een hoogteverschil hebben), en corrigeert het met deze gegevens
tijdens het scanproces de focus en de zoom van de lens, en de
lichtopbrengst van de LED-lampen.
|
Samenvatting
Wil men een handgeschreven akte digitaliseren, dan dient
deze akte in één vlak te liggen, en precies loodrecht op of evenwijdig
aan de scanrichting. Bij vlakke scanners, waarbij de bladzijden in één
vlak gebracht worden (4digitalbooks, Bookeye en dergelijke) kan men met
de gedeelde tafel wel de twee bladzijden op dezelfde hoogte brengen,
maar deze twee bladzijden liggen niet vlak. De bladzijden staan steeds
bol, omdat de bladen vanuit de binding van het boek naar omhoog gaan.
Men dient deze bladen dus naar beneden te drukken. Bij de Bookeye
gebruikt men daarvoor de duim, bij de 4digitalbooks luchtdruk. Bij
scanners waarbij het boek onder een hoek ligt (Atiz, Kirtas) speelt dit
probleem minder. Bij Kirtas gebruikt men de menselijke hand om het blad
glad te strijken, bij Atiz de plexiplaat (die het blad mooi vlak krijgt,
maar waarbij men met problemen zit op de plaats waar de twee plexiplaten
aan elkaar gezet zijn).
Voorbeelden worden altijd getoond met boeken die mooi ingebonden zijn en
waarvan de binding en de bladen goed van kwaliteit zijn. Legt men het
boek juist tov het scanelement of de fotosensor, dan liggen alle bladen
ook precies juist. De staat van de registers van de burgerlijke stand is
in de meeste gevallen heel anders. In feite zal men in veel gevallen
bladzijde na bladzijde het te digitaliseren blad juist moeten leggen tov
het scanelement of de fotosensor (verschuiven, verdraaien). Wil men een
correcte kwaliteit bekomen, dan kan men snelheid wel vergeten. De ideale
boekscanner voor onze registers wordt hier in ieder geval niet getoond.
Hoe ziet een voor ons bruikbare boekscanner er dan wel uit? Denkelijk
zal dit een apparaat worden waarbij men één bladzijde tegelijk
fotografeert. Het boek zal in een V-vormige craddle gelegd worden,
waarbij het te fotograferen blad onder een hoek van 30° ligt, en de
craddle een V-vorm heeft van 120°. Een digitale reflexcamera staat
hierbij loodrecht op het vlak van het te fotograferen blad. Denk hierbij
aan een Canon EOS 5D of een Nikon D3; in ieder geval een camera met een
grote sensor (35 mm of APS-C), 10 tot 12 megapixels, en die het beeld
lopend kan tonen op een monitorscherm. De craddle zelf is gemonteerd op
een basisplaat, die men in X- en Y-richting kan fijnregelen en die men
een aantal graden kan verdraaien (nodig om het blad zo juist mogelijk in
het camerabeeld te brengen). Eerst zal men dan alle rechterbladzijden
fotograferen. Is men hiermee klaar, dan wordt de camera over een hoek
van 60° gedraaid (zodat hij loodrecht staat op de linkerbladzijde), de
belichting wordt verplaatst, en men is klaar om alle linkerbladzijden te
fotograferen. Door de hoek van 120° zal het blad in de meeste gevallen
niet erg bol staan, alhoewel dit sterk afhangt van de binding van het
boek. Is dit wel het geval, dan kan een dunne plexiplaat (zoals bij de
Atiz) mogelijk uitkomst bieden. |