Glossaire

L’OCR

Ecrit par Louise

OCR signifie Reconnaissance Optique de Caractères, une expression de langue anglaise qui peut être traduite par Reconnaissance Optique de Caractères. La notion est utilisée en informatique pour nommer une procédure qui permet de numériser un texte à l’aide d’un scanner.

Ce que l’OCR rend possible, c’est que, lorsqu’un texte passe par un certain dispositif, le système reconnaît les caractères comme faisant partie d’un alphabet. De cette façon, le document numérisé peut être édité avec un traitement de texte, car il n’est pas stocké sous forme d’image.

De cette façon, l’OCR facilite le travail que de nombreuses personnes ont à faire. Si quelqu’un scanne un livre avec l’intention de faire un résumé, grâce à l’OCR peut interagir avec le texte numérisé à travers un programme tel que Microsoft Word, couper, copier et coller n’importe quel mot, quelque chose d’impossible si vous ne réalisez pas un tel processus de reconnaissance, comme l’ordinateur est incapable de comprendre le texte trouvé dans une image.

Outre l’avantage évident de stocker le texte en tant que tel et non sous forme d’image, il existe une différence de poids considérable : les images peuvent occuper beaucoup plus d’espace disque que les textes, et cela doit être pris en compte si vous voulez faire scanner des livres entiers. Bien sûr, il n’est pas toujours conseillé à l’ordinateur d’effectuer l’OCR, surtout s’il n’a pas l’intention de modifier le contenu.

Il est curieux qu’une seule application puisse changer radicalement la capacité d’un même ordinateur, mais c’est ce qui arrive dans tous les cas : bien que les processeurs modernes puissent être très efficaces, surtout s’ils sont combinés avec des mémoires et des disques de dernière génération, ils sont inutiles sans les bons programmes, de sorte que la même machine peut passer du statut inutile à extrêmement avancée simplement en raison des logiciels dont elle dispose.

A lire :   L'hypertexte

Le cas de l’OCR est très particulier, car il donne à l’ordinateur une capacité de base pour la plupart des êtres humains : la lecture. Il convient de mentionner que ce n’est pas une tâche facile pour nous deux, bien que dans notre cas, nous apprenions à le faire dès notre plus jeune âge, ce qui nous permet d’acquérir une grande habileté, même lorsque nous sommes confrontés à une calligraphie difficile à comprendre.

Malgré les progrès technologiques, le RCO est toujours confronté à un certain nombre de problèmes. Obtenir un système numérique pour reconnaître un texte manuscrit, par exemple, est très difficile. Le processus comporte souvent des inconvénients dans la segmentation des différentes unités de texte. Il en va de même lorsque les mots apparaissent proches les uns des autres.

D’autres erreurs d’OCR peuvent survenir lorsqu’il n’y a pas suffisamment de contraste entre les mots et l’arrière-plan. Supposons qu’un texte écrit en lettres noires soit imprimé sur une feuille grise : le processus d’OCR peut ne pas être capable de distinguer les lettres et les mots.

N’oublions pas que, tout comme une action apparemment aussi simple que marcher dans la rue nécessite une série d’actions complémentaires pour éviter les obstacles et protéger notre intégrité, la lecture d’un texte imprimé est le résultat de plusieurs tâches de reconnaissance simultanées, que nous effectuons presque inconsciemment, mais qui nous prennent le travail.

Face au texte, notre propre système d’OCR est responsable de la recherche et de la reconnaissance du titre, de l’identification des paragraphes, des signes de ponctuation, des espaces entre les mots et les abréviations, entre autres éléments, ainsi que de la compréhension des sources trop ornées ou mal rangées et de l’information dans les régions qui ont subi une usure quelconque, comme une tâche d’encre ou un morceau de papier manquant.

A lire :   Utiliser efficacement le presse-papiers d'Android et gagner du temps

A propos de l'auteur

Louise

Jeune maman dynamique, j'aime ... tout particulièrement m'occuper du réseau informatique de la maison notamment de notre NAS.

Laisser un commentaire