Boekscanners
 

Sinds Google begonnen is met het scannen en digitaliseren van archieven, zitten boekscanners duidelijk in de lift. Nemen we één voorbeeld: de universiteit van Michigan heeft een digitaliseringsproject lopen voor hun bibliotheek. Momenteel scannen en digitaliseren ze 5000 boeken per jaar (wat toch een respectabel aantal is, waarvan wij alleen maar kunnen dromen), en in dit tempo zullen ze binnen 1600 jaar klaar zijn. Zo gaat dat, als je 8 miljoen boeken staan hebt. Door hun samenwerking met Google plannen ze de klus nu op 6 jaar te klaren.
Dit gaat uiteraard over gedrukte boeken, waarvoor je OCR kan toepassen. Je scant een dubbelblad in, laat er een hoop electronische correcties op los, jaagt het door een OCR-proces, en je hebt het boek als een pdf-file die je electronisch kunt doorzoeken of over internet beschikbaar stellen. Voor een universiteitsbibliotheek lijkt dit logisch, want voor wetenschappelijk onderzoek dien je op sleutelwoorden te kunnen zoeken. Als resultaat verwacht je dan ook iets wat je dadelijk electronisch (liefst over internet, of het lokale universiteitsnetwerk) kunt raadplegen. Maar wat brengt ons dit, als gewone burger, op?

Momenteel hebben we in iedere gemeente wel een bibliotheek. We gaan daar naartoe, lopen wat verloren tussen de rekken, kiezen uiteindelijk een paar boeken waarvan de titel of de omslag ons aanstaan, en gaan daarmee naar huis. Na een aantal weken moeten we ze terugbrengen, en meestal hebben we er een paar ervan ook werkelijk gelezen. De overige waren toch niet wat we ervan hoopten.

We hebben momenteel de techniek om deze boeken in massa in te scannen en om te zetten in pdf-formaat. Voor nieuwe boeken hoeven we dit zelfs niet, want ieder boek wordt momenteel reeds jarenlang electronisch aangemaakt, en kan dus feitelijk in een electronisch formaat beschikbaar gesteld worden. Er is dus geen enkele technische reden meer om niet één Vlaamse bibliotheek te maken, die 7 dagen per week, 24 uur per dag open is, en waarvan de de (electronische) boeken over internet kunnen ontleend worden. Terugbrengen hoeft helemaal niet meer, want na de ontleentermijn wordt de ontleende kopie toch automatisch onleesbaar, en kunnen we ze weggooien.

Maar wie wil er nu een boek lezen op zijn computer? Ook dat hoeft niet meer. Ondertussen is reeds enkele jaren de ebook-reader op de markt, wat in feite een goedkoop scherm is van electronisch papier, in een stevig plastic omhulsel, met wat toetsen voor de navigatie, een slot voor een geheugenkaart en een draadloze verbinding. Door het toepassen van e-ink technologie is het contrast van het scherm hetzelfde als van een gedrukt vel papier (wat een veel hoger contrast biedt dan een TFT-scherm), en ligt het stroomverbruik een factor 100 lager dan van een TFT-scherm. Een gemiddeld boek van een 250 bladzijden is electronisch ongeveer een megabyte groot, dus op een SD-stickje van 1 Gb kan je een 1000 boeken opslaan.
Je kan natuurlijk nog veel meer doen. Stel bv dat de NMBS zijn rijtuigen zou uitrusten met een hotspot. Je krijgt dan op je reader automatisch je kranten en weekbladen gedownload waarop je een abonnement hebt. Maar je zou je kunnen abonneren op Het Laaste Nieuws voor het globale nieuws, op Het Belang van Limburg voor het regionale nieuws, en op het Nieuwsblad voor de sport. Je hoeft niet één krant meer te hebben voor alles, je kan selectief zijn.
Ieder jaar is er wel een programma op TV over de schoolkinderen die met veel te zware boekentassen moeten zeulen. Een hotspot in ieder klaslokaal, en je hebt alleen nog maar je readertje nodig. Je schoolboeken worden automatisch op je reader gedownload. Je huiswerk verdwijnt automatisch naar de klascomputer.
Technisch is het allemaal geen probleem meer. We zitten alleen weer met de-kip-en-het-ei verhaal. Zolang er geen digitale inhoud beschikbaar is, kopen we geen reader. En waarom zouden we digitale inhoud beschikbaar stellen? Er is toch niemand die een reader heeft.


Daarom is er reeds jaren het Gutenberg-project, waarbij boeken electronisch op internet downloadbaar gesteld worden. Daarom ook dat Google begonnen is boeken in te scannen, met natuurlijk een hoop tegenwerking van kortzichtige uitgevers, die niet snappen dat dit het beste is wat hen kan overkomen (vermindering van kosten opent altijd een veel grotere markt). Hier ten lande hebben we natuurlijk ook niet veel steun aan de Vlaamse regering, die alles wat ze doet denkelijk wel beter zal doen, maar blijkbaar niet beseft dat ze iets moet doen. Het is echt moeilijk om aan de middeleeuwen te ontsnappen.

Soorten boekscanners

Daar de tijd rijp is, zijn er de laatste jaren verschillende types boekscanners op de markt gekomen, en is er echt innovatie op dit gebied te bespeuren. De standaard blijkt duidelijk naar 300 dpi en 24 bits kleur te gaan. Andere design-criteria zijn:
- nadat een blad (of dubbelblad) gescand is, dient het blad dan handmatig omgedraaid te worden, of gaat dit automatisch?
- wordt het blad (of dubbelblad) ineens opgenomen (gefotografeerd), of wordt het lijn per lijn ingescand?
- ligt het boek vlak (180° geopend), of ligt het in een V-vorm (geopend onder een hoek van 110° of 120°)?
Deze design-criteria geven een kwalitatief resultaat (zoals gezegd meestal 300 dpi, 24 bits kleur, of iets wat daarvoor moet doorgaan), een snelheid (van 80 tot 3000 dubbelbladzijden per uur) en een prijs (van enkele tienduizenden tot over de 200.000 euro).
Om een idee te geven laten we enkele boekscanners zien, en bespreken we de kenmerken ervan.

Plustek Opticbook 3600

De meest simpele boekscanner is de Plustek Opticbook 3600. Het is een gewone flatbedscanner, waarbij het glas echter doorloopt tot vlak tegen de rand van de scanner, en waarbij de lamp, die de belichting geeft, iets breder is dan de scannerbreedte en aan deze rand onder een hoek van 90° naar beneden omgebogen is, zodat deze hoek extra belichting krijgt. Het is een zeer snelle scanner (iets meer dan 3 seconden per scan), die speciaal gemaakt is om met hoge snelheid boeken in te scannen en ze daarna met OCR te digitaliseren.
Daar de bladzijden na elkaar gescand worden (na een linkerblad volgt een rechterblad) is de software in staat om automatisch ieder tweede blad 180° te draaien, zodat in de bekomen tiff-file alle gescande bladzijden rechtop staan.

Een goed idee, en een betaalbare boekscanner (ca 200 euro). De gebruikers zijn ofwel zeer enthousiast over dit product, ofwel hebben ze er geen goed woord voor over. Wat zijn de nadelen?
- er blijft een rand van 6 millimeter tussen de rand van de scanner en de glasplaat, dus de 6 mm tegen de boekbinding kunnen niet meegescand worden. Voor een gedrukt boek (dat een brede marge heeft) is dit geen probleem. Voor akten in handschrift, waarbij het schrift dikwijls doorloopt tot vlak tegen de boekbinding, is dit dodelijk.
- de scankwaliteit ligt uiterst laag, zelfs lager dan deze van de goedkoopste low-cost scanners. Voor OCR, waar de scankwaliteit niet echt belangrijk is, is dit geen groot probleem. Voor handschrift, waar men een kwalitatief hoogstaande scan wil hebben, is dit natuurlijk een andere zaak. Blijkbaar heeft men de kwaliteit volledig opgeofferd aan de snelheid.
- de niet-enthousiaste gebruikers klagen over een slechte productkwaliteit (het apparaat gaat snel stuk), slechte driver-software die de computer af en toe ophangt, slechte toepassingssoftware (software loopt regelmatig vast), slechte ondersteuning van de fabrikant.
Het idee is dus goed, de uitwerking ervan lijkt nogal wat te wensen over te laten. Het machine is typisch bedoeld om gedrukte boeken te digitaliseren met behulp van OCR. Voor handgeschreven akten is het spijtig genoeg niet bruikbaar.

Atiz Do it yourself

De firma Atiz brengt een Bookdrive DIY (do it yourself) op de markt. We stellen het hier voor wegens de simpelheid van het apparaat.

In feite bestaat dit apparaat uit een frame, waarop de volgende onderdelen gemonteerd worden:
- onderaan merken we de cradle op, waarin het boek gelegd wordt. Het boek ligt open onder een hoek van 120°.
- in het midden worden twee camera's gemonteerd. Het moeten Canon EOS-camera's zijn, maar de gebruiker kan het type zelf kiezen. Onze voorkeur zou uitgaan naar de EOS 400D, 10 megapixel, wegens zijn grote APS-C sensor en relatief lage kostprijs. Een EOS 5D met een 35 mm sensor is natuurlijk duidelijk beter, maar de kostprijs ervan ligt dan ook véél hoger.
De linkse camera is gericht op de rechterbladzijde van het boek, de rechtse camera op de linkerbladzijde. Als lens gebruikt men standaard een Canon EF 50 mm vaste lens, wat een logische keuze is om tekst te fotograferen.
- bovenaan, onder het afdekzeil, is een toestel met twee lampen gemonteerd. Iedere lamp is gericht op een bladzijde van het boek.

Het toestel kost 3600$ voor het standaardmodel (zonder camera's).

De camera's worden via een USB-hub aangesloten aan een computer. De bijbehorende software toont het real-time beeld van de twee bladzijden op het scherm. Men maakt in feite een foto (tegelijk één van het linkse en één van het rechtse blad), slaat dan een blad om, en herhaalt dit proces tot het boek helemaal klaar is. Men kan een timer-hulpstuk verkrijgen, waarmee men de camera's automatisch na een vastgesteld aantal seconden een foto kan laten nemen. Men dient dan alleen nog maar na de biep het blad om te slaan.

Waarin de innovatie van dit apparaat ligt, is in de cradle. Het boek wordt opengeslagen in een houder gelegd, en daarna wordt een V-vormige plexiplaat naar beneden op de bladzijden van het boek gedrukt. Deze plexi dient natuurlijk om de bladzijden vlak te drukken, maar heeft ook een centrerende functie. Als men een tamelijk dik boek gaat scannen, verschuift tijdens het scannen de deelnaad tussen de linkse en rechtse bladzijde. Bij het begin van het boek ligt deze deelnaad helemaal links, en naargelang men in het boek vordert verschuift deze deelnaad naar rechts (is het boek bv 5 cm dik, dan verschuift deze deelnaad over 5 cm). Hierdoor zou men constant de camera's moeten bijregelen, zodat ze maximaal de hun toegewezen bladzijde in beeld kunnen houden. Bij dit apparaat is dit opgelost door de boekhouder vlottend te laten. Als de V-vormige plexiplaat dan naar beneden gedrukt wordt, wordt de boekhouder automatisch over de juiste lengte naar links of rechts gedrukt, zodat men de camera's niet hoeft bij te regelen.

De Bookdrive DIY lost dus twee problemen op, waarvoor men anders een softwarematige oplossing moet zoeken:
- het blad wordt vlak gedrukt door de V-vormige plexiplaat. Men moet dus niet meer softwarematig corrigeren voor een bol-liggende bladzijde.
- de deelnaad tussen de linkse en rechtse bladzijde ligt altijd op dezelfde plaats, zodat men de camera's niet constant hoeft bij te regelen.

Na het scannen van het boek begint het eigenlijke werk: cropping (uit de genomen foto de juiste bladzijde knippen), deskewing (de bladzijde recht trekken), despeckling (puntjes en onzuiverheden uit het blad halen), resizing (op de juiste grootte brengen) en dan natuurlijk OCR om de tekst te digitaliseren. Het toestel is duidelijk bedoeld om gedrukte boeken in te scannen en te digitaliseren mbv OCR. Er is ook een goedkopere Booksnap van $1500, waarop alleen Canon Powershot-camera's gebruikt kunnen worden, en dat daardoor uitsluitend bruikbaar is voor gedrukte boeken.
Men zou het toestel kunnen gebruiken om handgeschreven akten in te scannen. In principe zou men, bij gebruik van een goede digitale camera, hetzelfde resultaat kunnen halen als met de hieronder genoemde Kirtas-machines, omdat het werkingsprincipe en de constructie gelijkaardig zijn. Het voordeel van deze machine is dat het te fotograferen blad vlak ligt, omdat het door de plexiplaat tegen de craddle gedrukt wordt. Echter, deze plexiplaat bestaat feitelijk uit twee stukken, die onder een hoek van 120° tegen elkaar gezet zijn. De vraag is dus wat men precies in de deelnaad van het boek, waar de plexiplaten tegen elkaar gezet zijn, nog kan zien. Bij oude handgeschreven aktes loopt het schrift dikwijls door tot helemaal in de deelnaad van het boek, wat bij gedrukte boeken nooit het geval is. Denkelijk zal de vervorming op de plaats waar de twee plexiplaten tegen elkaar gezet zijn, zo groot zijn dan het toestel mogelijk onbruikbaar is om handgeschreven akten te digitaliseren.

Kirtas en 4digitalbooks

De echt zware jongens zijn de machines van Kirtas en 4digitalbooks. Hier vinden we de snelle, automatische boekscanners in de prijsreeks van 90.000 tot 225.000$.

De Kirtas-machines zien er zo'n beetje uit als de Bookdrive DIY, maar dan wel in een professionele versie. We zien hier een heel wat ingewikkelder boekhouder, een echt goede belichting (waarmee de kwaliteit van de foto staat of valt), en bovenop de machine de camera (twee in dit model).

Kirtas verkoopt als modellen de ATP 800, 1200 en 2400, waarbij het getal staat voor het aantal bladzijden dat per uur gescand kan worden. De ATP 800 is het kleine, niet-automatische broertje.

Kirtas gebruikt in zijn scanners Canon EOS-camera's van 12.8 en 16.6 megapixel. Het model ATP 800 en ATP 1200 hebben een enkele 12,8 megapixel camera, het model ATP 2400 heeft een dubbele 16,6 megapixel camera.

Rechts zien we een deel van een handscrift-scan. Daar men topkwaliteit camera's gebruikt krijgt men een goede kwaliteit.

 

De machines van 4digitalbooks zijn de echt zware jongens, met hoge kwaliteit. Ze zijn volledig geautomatiseerd. De afmetingen van het boek worden door de machine automatisch vastgesteld. Het boek wordt automatisch gecentreerd. De cradle waarop het boek ligt bestaat uit twee delen, die zich in hoogte aanpassen, zodat de twee te scannen bladzijden automatisch op dezelfde hoogte liggen, hoe dik het boek ook is. De kaft van het boek wordt door vacuum aan de cradle gezogen. Bij het omslaan van het blad wordt het om te draaien blad eerst door vacuum omhooggezogen, waarna het omgeslagen wordt door een mechanisme, dat in feite een luchtdruk-muur vormt tussen zichzelf en het om te slagen blad. De snelheid van scannen wordt automatisch ingesteld op basis van de gewenste resolutie.

De machine gebruikt geen camera-sensoren, maar lineaire CCD-cellen van 5000, 6000 of 10000 pixels. Het blad wordt dus lijn per lijn afgescand, met drie kleurmetingen per pixel (zoals een scanner). Men kan dus een echte resolutie halen tot 600 dpi, maar dit brengt de scansnelheid natuurlijk omlaag (tot 300 bladzijden per uur). De firma raadt echter deze resolutie aan voor "preservation" (de scans die als moederkopie bewaard worden), en terecht.

Een topmodel weegt 1200 kilo, verbruikt 10 kilowatt en kost meer dan 200.000 euro.

Andere boekscanners

Ook andere fabrikanten hebben boekscanners (Zeutschel, Bookeye, Minolta). Dit zijn allemaal handmatige scanners, die op hetzelfde principe gebaseerd zijn. Het boek ligt op een vlakke tafel (soms een gedeelde tafel, zodat men de beide in te scannen bladen in hetzelfde horizontale vlak kan brengen), met bovenaan ofwel een camera-sensor of een lineaire CCD-sensor, en belichting ofwel bovenaan ofwel aan de zijkanten. Als voorbeeld geven we de Bookeye 3, een interessant apparaat.

De Bookeye 3 van Image Access heeft een lineaire CCD-sensor (zoals een scanner) en is in staat optisch 400 dpi te halen over een A1-oppervlak. De belichting gebeurt door twee gemotoriseerde LED-balken, met een lichtopbrengst van 4500 lux, die precies die plaats belichten die op dat ogenblik gescand wordt. De tafel bestaat uit twee delen, die gemotoriseerd in hoogte versteld kunnen worden, zodat de te scannen bladzijden in hetzelfde horizontale vlak gebracht kunnen worden. Het toestel weegt 60 kilo en verbruikt tijdens het scannen 275 watt. Een scan (altijd het volledige A1-formaat) kost 7,5 seconden. Het toestel wordt aangesloten op het netwerk. De kostprijs ligt rond de 30.000$.

Specifiek aan de Bookeye 3 is dat het een ingebouwde laser-afstandsmeter heeft. Als men niet scant, trekt de laser een rode laserlijn over het boek. Deze laserlijn dient voor de gebruiker om het boek recht te leggen, en geeft ook aan waar de gebruiker het blad met zijn duim neergedrukt kan houden (de software verwijdert dan automatisch de ingescande duim uit de marge). Met deze laserlijn bepaalt de scanner ook de afstand tot het boek, het hoogteverschil over de te scannen lengte (het blad kan immers bol in plaats van vlak liggen, en beide bladen kunnen een hoogteverschil hebben), en corrigeert het met deze gegevens tijdens het scanproces de focus en de zoom van de lens, en de lichtopbrengst van de LED-lampen.

Samenvatting

Wil men een handgeschreven akte digitaliseren, dan dient deze akte in één vlak te liggen, en precies loodrecht op of evenwijdig aan de scanrichting. Bij vlakke scanners, waarbij de bladzijden in één vlak gebracht worden (4digitalbooks, Bookeye en dergelijke) kan men met de gedeelde tafel wel de twee bladzijden op dezelfde hoogte brengen, maar deze twee bladzijden liggen niet vlak. De bladzijden staan steeds bol, omdat de bladen vanuit de binding van het boek naar omhoog gaan. Men dient deze bladen dus naar beneden te drukken. Bij de Bookeye gebruikt men daarvoor de duim, bij de 4digitalbooks luchtdruk. Bij scanners waarbij het boek onder een hoek ligt (Atiz, Kirtas) speelt dit probleem minder. Bij Kirtas gebruikt men de menselijke hand om het blad glad te strijken, bij Atiz de plexiplaat (die het blad mooi vlak krijgt, maar waarbij men met problemen zit op de plaats waar de twee plexiplaten aan elkaar gezet zijn).
Voorbeelden worden altijd getoond met boeken die mooi ingebonden zijn en waarvan de binding en de bladen goed van kwaliteit zijn. Legt men het boek juist tov het scanelement of de fotosensor, dan liggen alle bladen ook precies juist. De staat van de registers van de burgerlijke stand is in de meeste gevallen heel anders. In feite zal men in veel gevallen bladzijde na bladzijde het te digitaliseren blad juist moeten leggen tov het scanelement of de fotosensor (verschuiven, verdraaien). Wil men een correcte kwaliteit bekomen, dan kan men snelheid wel vergeten. De ideale boekscanner voor onze registers wordt hier in ieder geval niet getoond.
Hoe ziet een voor ons bruikbare boekscanner er dan wel uit? Denkelijk zal dit een apparaat worden waarbij men één bladzijde tegelijk fotografeert. Het boek zal in een V-vormige craddle gelegd worden, waarbij het te fotograferen blad onder een hoek van 30° ligt, en de craddle een V-vorm heeft van 120°. Een digitale reflexcamera staat hierbij loodrecht op het vlak van het te fotograferen blad. Denk hierbij aan een Canon EOS 5D of een Nikon D3; in ieder geval een camera met een grote sensor (35 mm of APS-C), 10 tot 12 megapixels, en die het beeld lopend kan tonen op een monitorscherm. De craddle zelf is gemonteerd op een basisplaat, die men in X- en Y-richting kan fijnregelen en die men een aantal graden kan verdraaien (nodig om het blad zo juist mogelijk in het camerabeeld te brengen). Eerst zal men dan alle rechterbladzijden fotograferen. Is men hiermee klaar, dan wordt de camera over een hoek van 60° gedraaid (zodat hij loodrecht staat op de linkerbladzijde), de belichting wordt verplaatst, en men is klaar om alle linkerbladzijden te fotograferen. Door de hoek van 120° zal het blad in de meeste gevallen niet erg bol staan, alhoewel dit sterk afhangt van de binding van het boek. Is dit wel het geval, dan kan een dunne plexiplaat (zoals bij de Atiz) mogelijk uitkomst bieden.