De laatste jaren zijn we verwend met een prachtig mooi uitwisselformaat genaamd PDF. Zo goed zelfs dat Microsoft ook maar besloot zo’n mooi uitwisselformaat te maken (XPS). Echter, zeker nu het formaat PDF niet meer beschermd is, is er toch wat vreemds aan de hand. Veel, heel veel bedrijven scannen documenten in PDF, krijgen e-mails met PDF bestanden als bijlagen of produceren zelf PDF bestanden. Deze bestanden worden netjes opgeslagen op het netwerk of gestructureerd in een DMS of ECM omgeving.

“Een geruststellende gedachte” zult u denken, maar zoals mijn Belgische vrienden zeggen “er zit een Boa constrictor onder het gras…”. Het blijkt dat PDF bestanden in veel gevallen een verkleedimage formaat zijn, ofwel een plaatje (jpg, tif, bmp) met als extensie PDF. Wellicht denkt u “OK, so what?” Nou, dat betekent dat u de tekst in de PDF niet kan hergebruiken, het bestand alleen op de documentnaam of de locatie is terug te vinden, ook voor de PDF bestanden van uw collega’s!

Daar hebben we natuurlijk een techniek voor die al sins de jaren 80 bestaat: OCR. Voor de liefhebbers betekent dat Optical Chracter Regognition. Deze techniek zorgt ervoor dat een PDF bestand wordt voorzien van een tekstlaag. Het resultaat is een op inhoud doorzoekbare PDF en een PDF waarvan de tekst hergebruikt kan worden.

Het vervelende is dat je aan een PDF bestand zelf niet kan zien of dit nu ge-ocr-ed is of niet. Als ik gebruikers spreek heb je twee groepen, de eerste groep kijkt me glazig aan en heeft geen idee waar ik het over heb (deze groep is gelukkig niet heel groot) en de tweede groep gaat er vanuit dat alle PDF bestanden gewoon op inhoud doorzoekbaar zijn. En ik moet de eerste gebruiker nog ontmoeten die voordat hij of zij een PDF opslaat even controleert of die wel ge-ocr-ed is, zou mooi zijn maar dit is niet de praktijk.

De ervaring leert dat binnen alle organisaties PDF bestanden bestaan die wel doorzoekbaar zijn, bijvoorbeeld die met een tekstverwerker zijn gemaakt,  en PDF bestanden die niet doorzoekbaar zijn. Het probleem is natuurlijk dat dit niet aan het PDF bestand zelf te zien is, al deze bestanden hebben de extensie PDF.

De impact daarentegen is wel zichtbaar en zal in de komende jaren steeds groter worden. Het zoeken van bestanden, het publiceren van kennis en het hergebruik van informatie is voor elke kennisgedr even organisatie van groot belang. Zolang een groot gedeelte van uw informatie niet doorzoek baar is en alleen op een vaste locatie terug te vinden is zult u geen optimaal gebruik kunnen maken van uw informatie.
Het digitale archief zal ook met het PDF formaat (PDF/A) meer en meer vorm krijgen. Het zou voor elke organisatie een grote meerwaarde zijn om ervoor te zorgen dat het complete digitale archief ook op inhoud doorzoekbaar is. Een belangrijk voordeel ten opzichte van het huidige papieren archief.

Tevens is het een stukje kwaliteit binnen de organisatie, om al uw uitgaande PDF bestanden in het juiste formaat, ge-ocr-ed en voorzien van een digitale handtekening uit te sturen.

Daarnaast zal steeds meer papier gaan verdwijnen en zullen we meer en meer digital informatie ontvangen en produceren. Belangrijk om er nu al voor te zorgen dat alle informatie op een juiste manier beschikbaar is. De tijd dat het OCR-en van bestanden traag zou zijn, of dat het kostbaar is ligt ver achter ons, de techniek is er nu alleen onze bewustwording nog.

Bij deze een gelukkig en prettig OCR 2010 gewenst!

Dit artikel is geschreven door Sebastiaan Bos, Business Unit Manager I.R.I.S. Nederland

Rate this post

Print Friendly