Techno-Science.net

Mardi 7 Avril 2026

Rechercher 🔍

Reconnaissance optique de caractères - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Brève histoire de la ROC - Fonctionnement - Apprentissage - Principaux logiciels de reconnaissance optique de caractères - Domaine de recherche

Fonctionnement

Un système ROC part de l'image numérique réalisée par un scanner optique d'une page (document imprimé, feuillet dactylographié, etc.), ou une caméra numérique, et produit en sortie un fichier texte en divers formats (texte simple, formats de traitements de texte, XML...).

Certains logiciels tentent de conserver l'enrichissement du texte (corps, graisse et police) ainsi que la mise en page, voire de rebâtir les tableaux et d'extraire les images.

Certains logiciels comportent, en outre, une interface pour l'acquisition numérique de l'image.

Jusqu'à une date récente, le fonctionnement des systèmes ROC performants était peu connu car protégé par le secret industriel; les logiciels open-source disponibles (ex: GOcr) étant plutôt l'œuvre d'amateurs. La publication en open-source de systèmes performants (en particulier Tesseract en 2006) a quelque peu changé cette situation.

Les étapes de traitement peuvent être schématisées ainsi:

Pré-analyse de l'image: le but est d'améliorer éventuellement la qualité de l'image. Ceci peut inclure le redressement d'images inclinées ou déformées, des corrections de contraste, le passage en mode bicolore (noir et blanc, ou plutôt papier et encre), la détection de contours.
Segmentation en lignes et en caractères (ou Analyse de page): vise à isoler dans l'image les lignes de texte et les caractères à l'intérieur des lignes. Cette phase peut aussi détecter le texte souligné, les cadres, les images.
Reconnaissance proprement dite des caractères: après normalisation (échelle, inclinaison), une instance à reconnaitre est comparée à une bibliothèque de formes connues, et on retient pour l'étape suivante la forme la plus « proche » (ou les N formes les plus proches), avec un score ou une distance. Les techniques de reconnaissance se classent en quelques grands types:
1. Classification par Caractéristiques (Features): une forme à reconnaitre est représentée par un vecteur de valeurs numériques - appelées features en anglais - calculées â partir de cette forme. Le nombre de features est de l'ordre de 100 à 300. Si les features sont bien choisies, une classe de caractères (par exemple l'ensemble des A majuscules) sera représentée par un « nuage » contigu de points dans l'espace vectoriel des features. Le rôle du classificateur est de déterminer à quel nuage (donc à quelle classe de caractères) la forme à reconnaitre appartient le plus vraisemblablement. La classification fait généralement appel à divers types de réseaux de neurones artificiels entrainés sur de vastes bases de formes possibles.
2. Méthodes métriques: consistent à comparer directement la forme à reconnaitre, au moyen d'algorithmes de distance, avec un ensemble de modèles appris. Ce type de méthode est peu utilisé et peu valorisé par les chercheurs, car souvent plus naïf et vraisemblablement moins efficace que les méthodes à base de features.
3. Méthodes statistiques: dans le domaine de la reconnaissance d'écriture manuscrite, il est fréquemment fait appel aux méthodes probabilistes/statistiques comme les chaînes de Markov.
Post-traitement utilisant des règles linguistiques et contextuelles pour réduire le nombre d'erreurs de reconnaissance: dictionnaires de mots, de syllabes, de trigrammes. Dans les systèmes industriels, des techniques spécialisées pour certaines zones de texte (noms, adresses postales) peuvent utiliser des bases de données pour éliminer les solutions incorrectes.
Génération du format de sortie.

Brève histoire de la ROC

- Introduction - Brève histoire de la ROC - Fonctionnement - Apprentissage - Principaux logiciels de reconnaissance optique de caractères - Domaine de recherche

miniature

☄️ Objet interstellaire 3I/ATLAS: une capsule temporelle de 10 à 12 milliards d'années

miniature

💧 Inattendu: l'eau, un répulsif naturel contre les punaises de lit ?

miniature

🦂 Une carte pour savoir où se trouvent les scorpions les plus dangereux

miniature

📜 L'éclipse de l'an -709, archivée par les chinois, est une mine d'informations pour les scientifiques

miniature

💥 Une première: la naissance d'un magnétar observée en direct

miniature

🍽️ Le jeûne intermittent sous la loupe scientifique: efficace pour perdre du poids ?

miniature

🌏 L'origine de la vie sur Terre découverte ?

miniature

👟 Contrôler le grincement entre un matériau mou et un matériau rigide

miniature

🦖 Les tyrannosaures étaient aussi des charognards cannibales

miniature

🧠 Des troubles de l'attention reliés à l'intrusion d'ondes du sommeil pendant l'éveil

miniature

💥 Les effets quantiques de l'Univers primordial reproduits en laboratoire

miniature

🔋 1000 recharges et toujours ok: une percée dans les batteries calcium-ion

miniature

🐒 Des chimpanzés captivés par des cristaux

miniature

💧 A ses débuts, l'Univers était... liquide

miniature

✏️ Des Néandertaliens de Crimée utilisaient des crayons d'ocre

miniature

🌿 Le thé vert matcha montre un curieux impact sur le réflexe d'éternuement

miniature

📐 L'Univers est-il replié sur lui même ou vraiment infini ?

miniature

⏳ Etude: ce simple complément alimentaire diminue significativement le vieillissement biologique

miniature

🏗️ Bâtir sur la Lune: le nouveau rêve américain

miniature

🎶 Nous partagerions des préférences acoustiques avec certains animaux

miniature

🪐 Découverte d'une "planète fondue" - la première du genre

miniature

🍔 +5% de risque cardiaque par aliment ultra-transformé consommé !

miniature

💥 Et si la première lumière de l'Univers avait "tourné" plusieurs fois avant de nous parvenir ?

miniature

👀 Faut-il fermer les yeux ou les garder ouverts pour mieux entendre ?

miniature

💪 En fait, c'est si simple de se muscler

miniature

🧬 Aux origines de la vie: des "membranes" minérales capables de convertir l'énergie

miniature

🕸️ Une toile d'araignée géante sur Mars

miniature

🍽️ La "mémoire de l'obésité": une étude scientifique fait le point

🔭 Cette onde de choc ne devrait pas exister

miniature

🥚 Des chercheurs reproduisent un nid de dinosaure avec ses œufs

miniature

🔬 Le LHC détecte une nouvelle particule, attendue depuis plus de 20 ans

miniature

🌍 Et si on passait à des journées de 25 heures ?

miniature

🦟 Pourquoi les moustiques transmettent-ils davantage le virus Zika africain que le Zika asiatique ?

miniature

🔭 Le métal énigmatique de l'astéroïde Psyche sous simulation

miniature

🚀 Artemis 2: décollage imminent pour un retour de l'humanité vers la Lune

miniature

💥 Missions sur Vénus: après la température, l'autre menace à prendre en compte

miniature

🧠 Un cerveau mal "nettoyé" peut mener à la schizophrénie

miniature

⚛️ Des "superatomes géants" pour rendre l'informatique quantique accessible

miniature

🪼 Les forces à l'origine des formes du vivant

miniature

💥 Frapper la lune pour dévier l'ensemble du système binaire

miniature

🦠 Cancer: des bactéries tueuses de tumeurs

miniature

🚀 Des tardigrades sur un sol martien, ça donne quoi ?

miniature

🍽️ Pourquoi les régimes cétogènes sont-ils efficaces contre l'épilepsie ?

miniature

🧪 Datation absolue de peintures préhistoriques, dont celles de Lascaux

miniature

⌚ Prédire sa santé mentale grâce à sa montre connectée

miniature

💫 La danse ovale d'un trou noir et d'une étoile à neutrons

miniature

💊 Essai clinique validé: une nouvelle pilule réduit le mauvais cholestérol de 60% !

miniature

👁️ Image du Mois: zoom sur l'œil cosmique

miniature

🧠 Après un long vol spatial, le cerveau des astronautes n'est plus au même endroit

miniature

🔬 Reproduire l'environnement du corps humain en laboratoire

Page générée en 0.143 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales - Signaler un contenu
Version anglaise | Version allemande | Version espagnole | Version portugaise