Ce site necessite l'activation du javascript dans votre navigateur pour un affichage correct !
  Nos sites: Techno-Science.net | Allons-Sortir.fr
Style du site: Original | Azur   
Découvrez toute l'actualité scientifique et technologique, des dossiers, des évènements et sorties scientifiques...
Techno-Science
Outils
Proposez-nous
Archives
Partenaires / Sites
Organismes
 CEA
 ESA
Sites Web
Posté par Adrien le Vendredi 22 Juin 2007 à 00:00:28
reCAPTCHA: quand le spam améliore les logiciels d'OCR
Une équipe de Carnegie Mellon University vient de proposer une amélioration de son système de filtre sur des pages Internet (Internet est le réseau informatique mondial qui rend accessibles au public des services comme le courrier électronique...) connu sous le nom Completely Automated Public Turing Test to Tell Computers and Humans Apart (CAPTCHA). Le procédé est désormais courant: des lettres déformées et barrées apparaissent à l'écran (Un moniteur est un périphérique de sortie usuel d'un ordinateur. C'est l'écran où s'affichent les informations saisies...) et l'utilisateur doit trouver le mot qu'elles forment. Le mécanisme avait été à l'origine commandé par Yahoo pour éviter l'enregistrement de comptes e-mail frauduleux par des robots. Il a été depuis largement repris par eBay, Hotmail, Paypal et dans de nombreux sites d'entreprises et de particuliers pour s'assurer que la saisie de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose,...) a bien été effectuée par un humain et non pas par une machine.

L'évolution de CAPTCHA a été baptisée reCAPTCHA. Elle tire profit d'une double constatation: plus de 60 millions de CAPTCHA sont résolus chaque jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux...), chaque test prenant environ 10 secondes. Au total ( Total est la qualité de ce qui est complet, sans exception. D'un point de vue comptable, un total est le...), plus de 150 000 heures (L'heure est une unité de mesure  :) d'analyse humaine sont ainsi consommées quotidiennement. D'un autre côté, de nombreux projets d'OCR (Optical Character Recognition) sont ralentis dans la numérisation (La numérisation est le procédé permettant la construction d'une représentation discrète d'un objet du monde réel.) de livres à cause de mots non reconnus, déformés par le vieillissement des ouvrages ou par une mauvaise qualité d'acquisition (En général l'acquisition est l'action qui consiste à obtenir une information ou à acquérir un bien.).

reCAPTCHA apporte une solution originale: le système propose deux mots à déchiffrer. Le premier est un mot connu qui sert à s'assurer que la personne en face de l'écran est bien un humain. Le deuxième est un mot rejeté par un logiciel d'OCR, déformé comme pour un CAPCHA classique. Quand un certain nombre (Un nombre est un concept caractérisant une unité, une collection d'unités ou une fraction d'unité.) d'utilisateurs a déchiffré de la même manière le deuxième mot, celui-ci est validé et peut alors être substitué dans le processus de numérisation du livre. Cette méthode est aujourd'hui utilisée au profit de l'Internet Archive (L'Internet Archive est une organisation à but non lucratif consacrée à l'archivage du Web, fondée par Brewster Kahle en...), une association à but non lucratif de l'Open Content Alliance, pour l'aider dans son travail de numérisation de contenus libres de droits.

Intel a développé un web-service qui permet à tous les webmestres d'utiliser le mécanisme de filtrage sur leur site Internet. Il est disponible sur le site de reCAPTCHA (lien) sous forme de plugins compatibles avec la plupart des CMS (WordPress, MediaWiki, Typo3, ...), de bibliothèques pour langages orientés web (PHP, Python, Perl, Ruby) et d'une API Java. Les avantages du web-service sont doubles: au cas où un logiciel arriverait à déchiffrer le premier mot, le système de déformation des lettres peut être mis à jour sans intervention des webmestres. De plus, le service inclut un système de détection et de bannissement d'adresses IP pour ces logiciels frauduleux.

Par la même occasion, l'équipe de Carnegie Mellon University propose sur son site un service gratuit de protection d'adresse mail par reCAPTCHA et une version audio du système de protection pour les personnes malvoyantes. L'objectif clairement affiché est de remplacer un maximum de CAPTCHA par leur successeur.

Source: BE Etats-Unis numéro 81 (1/06/2007) - Ambassade de France aux Etats-Unis / ADIT
Commentez cette news: 4 commentaires
Archives des News
  Février 2010
  Janvier 2010
  Décembre 2009
  Novembre 2009
  Toutes les archives


Lundi 8 Février 2010 à 11:54:10 - Aéronautique - 11 commentaires
» Le 747-8 à son tour prêt à s'envoller
Dimanche 7 Février 2010 à 00:00:57 - Vie et Terre - 0 commentaire
» Une grotte à immortaliser