La lecture automatique de documents, aussi appelée LAD est un ensemble de technologies (OCR, RAD, ICR…) qui permet lors de la numérisation de lire et de récupérer de multiples informations et contenus sur tous types de documents physiques.
Cet ensemble de technologies, complémentaire à la gestion électronique de documents, rend possible une capture très rapide des données. Les informations extraites peuvent alors être utilisées comme métadonnées dans un système de GED, facilitant ainsi la recherche.
La LAD regroupe trois technologies indispensables à son fonctionnement :
La RAD : Reconnaissance Automatique de Documents
L’OCR : Reconnaissance Optique des Caractères
L’IRC : Reconnaissance Intelligente de Caractères
RAD : Une reconnaissance automatique pour un classement efficace des documents
La RAD ou reconnaissance automatique de documents est une application qui permet de numériser un document à l’aide d’un scanner via le principe de la LAD et d’un logiciel d’OCR.
La technologie LAD/RAD consiste à reconnaitre le type du document à traiter en s’appuyant sur différents critères et contraintes (reconnaissance caractères numériques, alpha, codes barre…) définis par la GED. Ces critères peuvent renvoyer à des logos des codes-barres, l’emplacement d’image ou d’encadré présents sur le document. Cette technologie permet alors de déterminer la nature des documents numérisés (devis, factures, commandes…) pour un classement efficace des informations.
OCR : Une technologie intelligente de capture de données
La technologie OCR, ou autrement appelé vidéocodage, consiste à lire et à analyser un texte (formes des mots, des caractères…) pour en produire une version informatique au format d’un fichier texte. La reconnaissance optique de caractères permet de capturer les informations, de les analyser (détection des formes et comparaison à des bibliothèques de formes pour en faire correspondre un caractère ou un mot), de les traiter pour enfin en comprendre les données. Ainsi, toutes les lignes du texte sont définies en mots et en caractères. Cette saisie peut être réalisée soit à partir d’un scanner lorsque le texte est au format papier soit être directement reconnue s’il s’agit d’une image numérique.
LAD, RAD, OCR
댓글