ReCAPTCHA - Définition et Explications

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Logo du reCAPTCHA.
Un exemple de reCAPTCHA : les mots à reconnaître sont « following » et « finding ».

reCAPTCHA est un système mettant à profit les capacités de reconnaissance des utilisateurs humains mobilisées par les tests Captcha (Un captcha est une forme de test de Turing permettant de différencier de manière automatisée un utilisateur humain d'un ordinateur.), pour améliorer par la même occasion le processus de numérisation (La numérisation est le procédé permettant la construction d'une représentation discrète d'un objet du monde réel.) de livres, là où échouent les systèmes de reconnaissance optique (L'optique est la branche de la physique qui traite de la lumière, du rayonnement électromagnétique et de ses relations avec la vision.) de caractères (OCR). Le système a été mis au point (Graphie) par des chercheurs de l'Université (Une université est un établissement d'enseignement supérieur dont l'objectif est la production du savoir (recherche), sa conservation et sa transmission (études...) Carnegie-Mellon.

Description

L'idée est de rendre utile une tâche qui peut sembler rébarbative. La technique tient du crowdsourcing.

Concrètement, par rapport à un processus habituel d'authentification (L'authentification est la procédure qui consiste, pour un système informatique, à vérifier l'identité d'une entité (personne, ordinateur...),...) par Captcha, ce ne sont pas un mais deux mots qui sont présentés à l'utilisateur. L'un d'eux est un Captcha habituel, dont la solution est par conséquent connue de manière certaine ; seul l'autre est issu de la numérisation d'un livre : c'est celui dont la solution est incertaine voire inconnue et que l'utilisateur va aider à résoudre.

Le système part du principe que si les utilisateurs résolvent correctement le Captcha habituel, alors ils ont aussi déchiffré correctement le mot inconnu. Néanmoins, un mot n'est considéré comme vraiment reconnu que si plusieurs utilisateurs l'ont vérifié en obtenant le même résultat.

Les mots à reconnaître sont issus de numérisations opérées par Internet Archive (L’Internet Archive (IA) est une organisation à but non lucratif consacrée à l’archivage du Web, située dans le Presidio...) sur des ouvrages anciens appartenant au domaine public. Ils sont fournis lors des requêtes par le site Web (Un site Web est un ensemble de pages Web hyperliées entre elles et mises en ligne à une adresse Web. On dit aussi site Internet par métonymie, le World Wide...) du projet (Un projet est un engagement irréversible de résultat incertain, non reproductible a priori à l’identique, nécessitant le concours et...) reCAPTCHA, issu du projet CAPTCHA originel, tous deux mis en place par l'école d'informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement automatique de...) de l'Université Carnegie Mellon, dans la ville (Une ville est une unité urbaine (un « établissement humain » pour l'ONU) étendue et fortement peuplée (dont...) américaine de Pittsburgh. Ceci est réalisé au moyen d'une API écrite en JavaScript (JavaScript est un langage de programmation de scripts principalement utilisé dans les pages web interactives mais aussi coté serveur. C'est un langage orienté objets à prototype, c'est-à-dire que les bases du langage et ses...), dans laquelle le serveur rappelle reCAPTCHA après que la requête (Le mot requête, synonyme de demande, est employé dans les domaines suivants :) a été soumise. Le projet reCAPTCHA propose des bibliothèques pour différents langages de programmation (La programmation dans le domaine informatique est l'ensemble des activités qui permettent l'écriture des programmes informatiques. C'est une étape importante de la conception de...) afin de faciliter le processus. Le service est gratuit, à l'exception des utilisateurs qui auraient besoin (Les besoins se situent au niveau de l'interaction entre l'individu et l'environnement. Il est souvent fait un classement des besoins humains en trois grandes catégories : les besoins...) d'une bande passante (La bande passante (angl. bandwidth) est un intervalle de fréquences pour lesquelles la réponse d'un appareil est supérieure à un minimum....) trop élevée.

Le but de reCAPTCHA est le même que celui poursuivi par Distributed Proofreaders, un autre projet visant également à valider l'OCR par des opérateurs humains, mais de manière conventionnelle, sans avoir recours aux Captchas.

Histoire

En 2009, le projet reCAPTCHA est à même de numériser les archives du New York Times. En date de septembre 2009, environ 20 ans d'archives ont été numérisés et les responsables du projet espèrent avoir complètement (Le complètement ou complètement automatique, ou encore par anglicisme complétion ou autocomplétion, est une fonctionnalité informatique...) numérisé les 110 autres années avant la fin de 2010. Le 17 Septembre 2009, Google (Google, Inc. est une société fondée le 7 septembre 1998 dans la Silicon Valley en Californie par Larry Page et Sergey Brin, auteurs du moteur de recherche Google. Depuis 2001, Eric Schmidt en est le PDG...) annonce l'acquisition (En général l'acquisition est l'action qui consiste à obtenir une information ou à acquérir un bien.) de la société ReCAPTCHA. Celle-ci sera notamment utilisée dans le processus de numérisation d'ouvrage Google Books.

Page générée en 0.127 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique