Scannede dokumenter gemmes normalt i et elektronisk arkiv, hvor der er
indtastet en eller flere informationer (nøgleord/metadata) om dokumentet. F.eks.
dokumentets titel, forfatter, emne osv. Disse informationer bruges når
dokumentet på et senere tidspunkt skal findes igen.
Ved at benytte
OCR-software, kan man få et program til at genkende indholdet på et scannet
dokument. Dvs. har man f.eks. scannet et brev med en del tekst. Vil
OCR-programmet automatisk kunne udtrække denne tekst, således at den rene
tekstudgave af dokumentet også kan gemmes i det elektroniske arkiv. Nu bliver
det muligt at fritekst-søge efter information, breve og dokumenter i arkivet.
Dette kan have en stor værdi, den dag man får behov for at "grave efter guld" i
sine dokumenter. Måske får man behov for at finde alle dokumenter hvor ordet
"tilbud" forefindes.
En anden mulighed er, at scanne sine dokumenter med en
såkaldt stregkode (bar code) forside. På denne forside, står der de vigtigste
nøgleord med stregkoder. Ved scanningen læses disse stregkoder, og dokumenterne
indekseres og arkiveres automatisk.
Tænk på at et scannet dokument, er en fil
med et billede af et dokument og ikke andet. Der er ikke mulighed for at søge
efter ord og sætninger i sådan et dokument.
En anden udgave af et dokument
kaldes for en "Rendition" eller på danske for en "Rendering".
Der findes mange
forskellige programmer til OCR-behandling af dokumenter på markedet. Nogle
OCR-programmer er kun gode til "hjemmebrug", andre til professionelt brug. Er du
i tvivl bør du kontakte os med det samme, men prisen en god ledetråd.
De professionelle OCR-programmer benytter forskellige OCR-engines. Disse
OCR-engines (motorer) er den logik der ligger bag programmet som finder ud af
hvad der rent faktisk står. Dette er ofte en stor udfordring, da det f.eks. kan
være svært at kende forskel på 1, l og i. På samme måde er der mange andre
bogstaver og tal der minder om hinanden. De gode OCR programmer har gerne evnen
til at holde det tolkede bogstav/tal op mod den kontekst resten er skrevet i.
Står der f.eks. ordet "smil", og OCR-enginen er i tvivl om bogstavet "i", kigges
der på resten af ordet. OCR-enginen vil se at resten er bogstaver, og derefter
beslutte sig for at det læste ikke kan være tallet 1.
Andre engines har også indbygget stavekontrol og nogle kan benytte to
forskellige OCR-engines på samme tid. Når hver engine har læst og tolket et
tegn, afholdes der en slags afstemning mellem de to engines. Vinderen bliver den
engine, der med størst sandsynlighed har "læst" mest korrekt. Princippet kaldes
for "OCR Voting".
Til de fleste OCR-behov anbefaler vi:
AnyDoc Software - Klik på navnet for at
læse mere
Vi stiller gerne op til en gratis og uforpligtende demonstration af
vores OCR-software .
Gerne med Jeres egne dokumenter - Mere information:
Demo og test af OCR-software
Klik her for at læse om hvor OCR-teknologier passer ind i
Enterprise Content Management
Hos DELTA ECM er vi specialister i datafangst og OCR-teknologier. Vi kan rådgive
om alt fra fangst af data på små kontaktformularer til store komplekse
dokumenter og spørgeskemaer, samt fuldtekst-indeksering af ocr-fortolkede
dokumenter på en indekseringsserver. Ring nu på og hør mere om OCR på +45 70 22
42 20 eller skriv på
info@deltaecm.dk