Optical Character Recognition

Da Wikipedia, l'enciclopedia libera.

I sistemi di Optical Character Recognition (riconoscimento ottico dei caratteri detti anche OCR) sono programmi dedicati alla conversione di un'immagine contenente testo, solitamente acquisite tramite scanner, in testo digitale modificabile con un normale editor. Il testo può essere convertito in formato ASCII semplice, Unicode o, nel caso dei sistemi più avanzati, in un formato contenente anche l'impaginazione del documento.

L'OCR è un campo di ricerca dell'intelligenza artificiale, della visione artificiale e del pattern recognition, legati al riconoscimento delle immagini.

Indice

1 Breve storia dei programmi di OCR
2 Lettura ottica vs. riconoscimento digitale dei caratteri
3 Addestramento
4 OCR di caratteri stampati
5 OCR a mano libera
6 OCR del corsivo
7 Aree di Ricerca
8 MICR
9 OCR in Unicode
10 Software OCR
11 Voci correlate
12 Collegamenti esterni

[modifica] Breve storia dei programmi di OCR

Il sistema postale degli Stati Uniti d'America utilizza sistemi di OCR fin dal 1965. La necessità di riconoscere le destinazioni delle missive e di organizzarle in modo automatico ha spinto la ricerca nel settore dell'OCR. I sistemi OCR leggono il Codice Postale scritto sulle lettere e provvedono a stampare sulle missive un codice a barre che rappresenta la destinazione della lettera. Per impedire che il codice a barre disturbi la lettura dell'indirizzo e quindi complichi il lavoro dei postini il codice a barre viene stampato con un inchiostro visibile solo se illuminato da una luce con lunghezza d'onda nell'ultravioletto. Il codice a barre viene utilizzato da macchine smistatrici per indirizzare la corrispondenza all'ufficio postale corrispondente che si preoccuperà di recapitarlo al destinatario. Un metodo analogo è in uso dalle poste italiane per la gestione della corrispondenza.

[modifica] Lettura ottica vs. riconoscimento digitale dei caratteri

Originalmente, le distinzioni fra lettura ottica dei caratteri (usando le tecniche ottiche quali gli specchi e gli obiettivi) e il riconoscimento digitale dei caratteri (usando gli algoritmi di separazione ed analisi del testo) erano notevoli ed infatti erano considerati campi separati. Poiché non è rimasta più quasi nessuna applicazione legata alle tecniche di lettura ottica si è esteso il termine OCR che ora indica il riconoscimento dei caratteri digitali indipendentemente dalla sorgente delle immagini.

[modifica] Addestramento

I sistemi OCR per funzionare correttamente richiedono una fase di "addestramento". Durante questa fase al sistema vengono forniti degli esempi di immagini col corrispondente testo in formato ASCII o simile in modo che gli algoritmi si possano calibrare sul testo che usualmente andranno ad analizzare. Questo addestramento è fondamentale se si considera che gli elementi che analizzano il testo non sono altro che delle reti neurali e come tali richiedono un addestramento per funzionare. Gli ultimi software di OCR utilizzano algoritmi in grado di riconoscere i contorni e in grado di ricostruire oltre al testo anche la formattazione della pagina.

[modifica] OCR di caratteri stampati

Il riconoscimento esatto di un testo scritto in alfabeto latino digitalmente (quale può essere un testo scritto a macchina e successivamente scannerizzato) oramai è considerato un problema risolto, con tassi di riconoscimento superiori al 99%. Il riconoscimento della scrittura a mano libera e il riconoscimento degli alfabeti non latini è un problema che tuttora non ha trovato delle soluzioni realmente soddisfacenti, ed è tuttora oggetto di studi e ricerche.

[modifica] OCR a mano libera

Sistemi per riconoscere della scrittura a mano libera hanno avuto un discreto successo commerciale se integrati in prodotti come PDA o computer portatili. Il precursore di questi dispositivi è stato il dispositivo Newton prodotto dall'Apple. Gli algoritmi di questi dispositivi funzionano adeguatamente perché si impone all'utente di imparare a scrivere le lettere seguendo un certo schema predefinito in modo da minimizzare i possibili casi di ambiguità. Queste strategie non si possono applicare nei documenti scritti su carta infatti il riconoscimento a mano libera è un problema tutt'altro che risolto. I tassi di accuratezza dell'80%-90% sui caratteri scritti a mano in modo accurato e pulito possono essere raggiunti in modo relativamente semplice. Ma un tasso di accuratezza così basso produce diverse decine di errori per pagina rendendo le tecniche di scrittura a mano libera poco utili nella maggior parte dei casi.

[modifica] OCR del corsivo

Il riconoscimento del testo scritto in corsivo è un campo di ricerca attivo, e attualmente l'accuratezza del riconoscimento è persino inferiore a quella di un testo scritto a mano. Più elevati livelli di accuratezza non saranno possibili fino a che non si useranno informazioni aggiuntive derivate da un analisi contestuale o grammaticale del testo. Per esempio, riconoscere le intere parole da un dizionario è più facile che provando ad analizzare i diversi caratteri singolarmente: analizzare le parole intere consente di eliminare molte ambiguità legate al riconoscimento. Conoscere il contesto dello scritto consente di eliminare altre ambiguità, per esempio un documento che parla di storia conterrà probabilmente molte date e quindi una linea verticale seguita da un simbolo 9 consentirebbe di ipotizzare che probabilmente la linea è un 1 piuttosto che una l minuscola o una i maiuscola. La conoscenza della grammatica della lingua analizzata può contribuire a determinare se una parola è probabilmente un verbo o un nome, per esempio, consentendo un'accuratezza maggiore. Purtroppo i caratteri corsivi di molte lettere non contengono abbastanza informazioni per effettuare un'analisi corretta e infatti l'accuratezza difficilmente può superare il 98%.

[modifica] Aree di Ricerca

Un problema particolarmente difficile per i calcolatori e gli esseri umani è quello del riconoscimento di documenti danneggiati contenenti molti nomi o comunque informazioni non deducibili dal contesto. Le pagine possono essere danneggiate dall'età, acqua o dal fuoco e dei nomi possono essere obsoleti o contenere errori d'ortografia. Le tecniche di elaborazione delle immagini dei calcolatori possono aiutare gli esseri umani nella lettura dei testi estremamente antichi come i documenti lasciati da Archimede o i rotoli del mar Morto. L'utilizzo del calcolatore come supporto all'uomo e viceversa è un ambito di ricerca molto interessante e potenzialmente prolifico.

Il riconoscimento dei caratteri è stato un settore soggetto ad un'intensa ricerca fin dai tardi anni cinquanta. Inizialmente è stato percepito come problema semplice, ma è risultato essere un problema molto più interessante. Serviranno ancora decenni di studi prima che il calcolatore sia in grado di riconoscere un testo con la stessa accuratezza di un essere umano, sempre che ciò sia possibile.

[modifica] MICR

Un'applicazione dove l'esattezza e la velocità di riconoscimento dei sistemi OCR sui caratteri supera quella umana è quella dei MICR, dove l'accuratezza è molto elevata e gli errori variano intorno a un errore rilevato su 20.000 - 30.000 controlli. Questa precisione si ottiene grazie all'utilizzo di inchiostri speciali contenenti materiale magnetico (ossido di ferro).

[modifica] OCR in Unicode

Questo paragrafo riguardante un argomento di linguistica non è ancora formattato secondo gli standard: contribuisci a migliorarlo seguendo le convenzioni di Wikipedia.

In Unicode, i simboli OCR stanno dal carattere di numero esadecimale 0x2440 a quello 0x245F, come elencato sotto (vedi anche Simboli Unicode). Questi caratteri hanno un significato speciale nei sistemi OCR-A ed E-13B.

colspan="4" rowspan="3" Template:CT-2\|	Simbolo	rowspan="2" Template:CT-3\| Nome	colspan="4" rowspan="3" Template:CT-4\|
Hex
colspan="2" Template:CT-2\| Anteprima del simbolo
⑀	rowspan="2" Template:CT-3\| OCR Hook ("gancio")	⑁	rowspan="2" Template:CT-3\| OCR Chair	⑂	rowspan="2" Template:CT-3\| OCR Fork ("forchetta")	⑃	rowspan="2" Template:CT-3\| OCR Inverted Fork ("forchetta capovolta")	⑄	rowspan="2" Template:CT-3\| OCR Belt Buckle ("fibbia")
0x2440	0x2441	0x2442	0x2443	0x2444
colspan="2" width="20%" Template:CT-2\| Immagine:U+2440.gif	colspan="2" width="20%" Template:CT-2\| Immagine:U+2441.gif	colspan="2" width="20%" Template:CT-2\| Immagine:U+2442.gif	colspan="2" width="20%" Template:CT-2\| Immagine:U+2443.gif	colspan="2" width="20%" Template:CT-2\| Immagine:U+2444.gif
⑅	rowspan="2" Template:CT-3\| OCR Bow Tie ("cravattino")	⑆	rowspan="2" Template:CT-3\| OCR Branch Bank Identification ("identificazione della succursale di una banca")	⑇	rowspan="2" Template:CT-3\| OCR Amount Of Check ("saldo del conto")	⑈	rowspan="2" Template:CT-3\| OCR Customer Account Number ("numero di conto del cliente")	⑉	rowspan="2" Template:CT-3\| OCR Dash ("salto")
0x2445	0x2446	0x2447	0x2448	0x2449
colspan="2" Template:CT-2\| Immagine:U+2445.gif	colspan="2" Template:CT-2\| Immagine:U+2446.gif	colspan="2" Template:CT-2\| Immagine:U+2447.gif	colspan="2" Template:CT-2\| Immagine:U+2448.gif	colspan="2" Template:CT-2\| Immagine:U+2449.gif
⑊	rowspan="2" Template:CT-3\| OCR Double Backslash ("doppia barra inversa")		rowspan="2" Template:CT-3\| Riservato		rowspan="2" Template:CT-3\| Non definito		rowspan="2" Template:CT-3\| Non definito		rowspan="2" Template:CT-3\| Non definito
0x244A	0x244B	0x244C	0x244D	0x244E
colspan="2" Template:CT-3\| Immagine:U+244A.gif	colspan="2" Template:CT-3\| -	colspan="2" Template:CT-3\| -	colspan="2" Template:CT-3\| -	colspan="2" Template:CT-3\| -

[modifica] Software OCR

Nome	Licenza	Sistema operativo	Note
Expervision TypeReader & RTK	Commerciale		ExperExchange, Inc., won the highest marks in the independent testing performed by UNLV for the consecutive years that ExperVision participated.
ABBYY FineReader OCR	Commerciale	Windows	For working with localized interfaces, corresponding language support is required.
Adobe Acrobat	?	?	Licensed from I.R.I.S. Group (Readiris)
Clara OCR	GPL	Unix-like	Features a web interface for cooperative digitization of books.
Computhink's ViewWise	Commerciale	Windows	Document Management system
CuneiForm	BSD	Windows	Enterprise-class system, multi language, can save text formatting and recognizes complicated tables of any structure
Datacap	Commerciale	Windows	Scan, capture index, and classify Forms and Documents
GOCR	GPL	Diversi	Early development
Microsoft Office Document Imaging	Commerciale	Windows, Mac OS X
Mitek Systems	Commerciale	Windows
NovoDynamics VERUS	Commerciale?	?	Specializes in languages of the Middle East
Ocrad	GPL	Unix-like, OS/2
OCRopus	Apache	Linux	Pluggable framework which can use Tesseract
OmniPage	Commerciale	Windows	Product of Nuance Communications
Readiris	Commerciale	Windows, Mac OS	Product of I.R.I.S. Group of Belgium. Asian and Middle Eastern editions.
ReadSoft	Commerciale	Windows	Scan, capture and classify business documents such forms, invoices and POs.
SimpleOCR	Freeware o Commerciale	Windows
SmartScore	Commerciale	Windows, Mac OS	For musical scores
Tesseract	Apache	Windows, Mac OS X, Linux, OS/2	Under development by Google
TextBridge	Commerciale	Windows, Mac OS	Product of Nuance Communications

[modifica] Voci correlate

[modifica] Collegamenti esterni

{en} Linux OCR: A review of free optical character recognition software
LAperLA progetto OCR per il recupero testi
Bioemulation OCR Come funziona - Un esempio in codice Visual Basic ...

in cattivo stato di conservazione dell'Istituto di Linguistica Computazionale

Categorie: Paragrafi da wikificare linguistica | Intelligenza artificiale

colspan="4" rowspan="3" Template:CT-2\|	Simbolo	rowspan="2" Template:CT-3\| Nome	colspan="4" rowspan="3" Template:CT-4\|
Hex
colspan="2" Template:CT-2\| Anteprima del simbolo
⑀	rowspan="2" Template:CT-3\| OCR Hook ("gancio")	⑁	rowspan="2" Template:CT-3\| OCR Chair	⑂	rowspan="2" Template:CT-3\| OCR Fork ("forchetta")	⑃	rowspan="2" Template:CT-3\| OCR Inverted Fork ("forchetta capovolta")	⑄	rowspan="2" Template:CT-3\| OCR Belt Buckle ("fibbia")
0x2440	0x2441	0x2442	0x2443	0x2444
colspan="2" width="20%" Template:CT-2\| Immagine:U+2440.gif	colspan="2" width="20%" Template:CT-2\| Immagine:U+2441.gif	colspan="2" width="20%" Template:CT-2\| Immagine:U+2442.gif	colspan="2" width="20%" Template:CT-2\| Immagine:U+2443.gif	colspan="2" width="20%" Template:CT-2\| Immagine:U+2444.gif
⑅	rowspan="2" Template:CT-3\| OCR Bow Tie ("cravattino")	⑆	rowspan="2" Template:CT-3\| OCR Branch Bank Identification ("identificazione della succursale di una banca")	⑇	rowspan="2" Template:CT-3\| OCR Amount Of Check ("saldo del conto")	⑈	rowspan="2" Template:CT-3\| OCR Customer Account Number ("numero di conto del cliente")	⑉	rowspan="2" Template:CT-3\| OCR Dash ("salto")
0x2445	0x2446	0x2447	0x2448	0x2449
colspan="2" Template:CT-2\| Immagine:U+2445.gif	colspan="2" Template:CT-2\| Immagine:U+2446.gif	colspan="2" Template:CT-2\| Immagine:U+2447.gif	colspan="2" Template:CT-2\| Immagine:U+2448.gif	colspan="2" Template:CT-2\| Immagine:U+2449.gif
⑊	rowspan="2" Template:CT-3\| OCR Double Backslash ("doppia barra inversa")		rowspan="2" Template:CT-3\| Riservato		rowspan="2" Template:CT-3\| Non definito		rowspan="2" Template:CT-3\| Non definito		rowspan="2" Template:CT-3\| Non definito
0x244A	0x244B	0x244C	0x244D	0x244E
colspan="2" Template:CT-3\| Immagine:U+244A.gif	colspan="2" Template:CT-3\| -	colspan="2" Template:CT-3\| -	colspan="2" Template:CT-3\| -	colspan="2" Template:CT-3\| -

See also ebooksgratis.com: no banners, no cookies, totally FREE.