Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Partenaires
Organismes
 CEA
 ESA
Sites Web
Photo Mystérieuse

Que représente
cette image ?
 A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | +
Moteur de recherche

Un moteur de recherche est un logiciel permettant de retrouver des ressources (pages web, forums Usenet, images, vidéo, etc.) associées à des mots quelconques.
Certains sites web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche (Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites Web offrent un moteur de recherche...) le site lui-même (Dailymotion, YouTube, Google Video, ... sont des moteurs de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension...) vidéo).

Outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son efficacité naturelle dans l'action. Cette augmentation se traduit par la...) de recherche sur le web constitué de " robots ", encore appelés spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la modélisation, de l'analyse, de la commande et, de la régulation des systèmes dynamiques. Elle a pour...) (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données (En informatique, une base de données (Abr. : « BD » ou « BDD ») est un lot d'informations stockées dans un dispositif informatique. Les...), accessible ensuite par les internautes à partir de mots-clés.

Par abus de langage, on appelle également moteurs de recherche :

  • des sites web proposant des annuaires de sites web : dans ce cas, ce sont des ressources humaines qui répertorient et classifient des sites web jugés dignes d'intérêt et non des robots d'indexation — on peut citer par exemple Voilà et Yahoo! (Yahoo!,Inc. est une société américaine de services sur Internet opérant notamment un portail Web. À l'origine, Yahoo!...), etc. ;
  • des logiciels installés sur un ordinateur (Un ordinateur est une machine dotée d'une unité de traitement lui permettant d'exécuter des programmes enregistrés. C'est un ensemble de circuits électroniques permettant de manipuler des...) personnel : ce sont des moteurs dits desktop qui combinent la recherche parmi les fichiers stockés sur le PC et la recherche parmi les sites web — on peut citer par exemple Google (Google, Inc. est une société fondée le 7 septembre 1998 dans la Silicon Valley en Californie par Larry Page et Sergey Brin, auteurs du moteur de recherche Google. Depuis 2001, Eric Schmidt en est le PDG...) Desktop et Copernic Desktop Search, etc.

On trouve également des métamoteurs, c'est-à-dire des sites web où une même recherche est lancée simultanément sur plusieurs moteurs de recherche (les résultats étant ensuite fusionnés pour être présentés à l'internaute) — on peut citer Mamma, Kartoo (Le métamoteur de recherche KartOO fournit une représentation cartographique des résultats de la recherche. Il restitue les informations dans leur contexte de façon à permettre de se rapprocher spatialement de...), Seek.fr, etc.
Plus récemment, on trouve également des annuaires qui exploitent des systèmes de folksonomie (Une folksonomie est un néologisme désignant un système de classification collaborative décentralisée spontanée. Le concept étant récent, sa francisation n'est pas encore...) à base de tags (ou étiquettes) positionnés par les internautes.

Fonctionnement

Le fonctionnement d'un moteur (Un moteur est un dispositif transformant une énergie non-mécanique (éolienne, chimique, électrique, thermique par exemple) en une énergie mécanique ou travail.[réf. nécessaire]) de recherche se décompose en trois étapes principales.

  1. L'exploration (L'exploration est le fait de chercher avec l'intention de découvrir quelque chose d'inconnu.) ou crawl : le web est systématiquement exploré par un robot (Un robot est un dispositif mécatronique (alliant mécanique, électronique et informatique) accomplissant automatiquement soit des tâches qui sont généralement dangereuses, pénibles,...) d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'annuaire (Un annuaire est une publication (imprimée ou électronique) mise à jour chaque année qui regroupe des informations (nom, adresse, coordonnées, etc.) sur les membres d’une association, d'une entreprise ou...) web.
  2. L'indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs (pratiquement tous) correspondant à chaque ressource. Les mots extraits sont enregistrés dans une base de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un...) organisée comme un gigantesque dictionnaire inverse (En mathématiques, l'inverse d'un élément x d'un ensemble muni d'une loi de composition interne · notée multiplicativement, est un...) ou, plus exactement, comme l'index terminologique d'un ouvrage, qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné. Les termes non significatifs s'appellent des mots vides.
  3. La recherche correspond à la partie requêtes du moteur (Un moteur (du latin mōtor : « celui qui remue ») est un dispositif qui déplace de la matière en apportant de la...), qui restitue les résultats. Un algorithme gardé secret est généralement appliqué pour donner un poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la Terre sur un corps massique en raison uniquement du voisinage de la Terre. Elle est égale à l'opposé de la...) variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un prédicat ou un algorithme. En statistiques,...) aux correspondances, afin de pouvoir présenter les résultats des recherches par ordre de pertinence supposée. L'algorithme tient généralement compte du contexte (Le contexte d'un évènement inclut les circonstances et conditions qui l'entourent; le contexte d'un mot, d'une phrase ou d'un texte inclut les mots qui l'entourent. Le concept...) du mot clé (titre, paragraphe, hyperlien (Un hyperlien ou lien hypertexte ou simplement lien, est une référence dans un système hypertexte permettant de passer automatiquement d'un document...)...) et de la ressource (ressources liées, popularité du site...)

Optimisation des moteurs de recherche

Afin d'optimiser les moteurs de recherche, les webmestres insérent des métaéléments (métatags) dans les pages web, dans l'en-tête HTML (head). Ces informations permettent d'optimiser les recherches d'information sur les sites web.

Financement

Les sites dont la recherche est le principal service se financent par la vente de technologie (Le mot technologie possède deux acceptions de fait :) et de publicité (Bien que le terme (Werbung en allemand, Publicity et Advertising en anglais) désignât d'abord le mot qui aux yeux d'Habermas qualifie la Modernité et la Démocratie —( Publicité, sauvegarde du peuple est-il écrit au fronton de l'Hôtel de...).

Le financement par la publicité consiste à présenter des publicités correspondant aux mots recherchés par le visiteur. L'annonceur achète des mots-clés : par exemple une agence de voyage (Un voyage est un déplacement effectué vers un point plus ou moins éloigné dans un but personnel (tourisme) ou professionnel (affaires). Le voyage s'est considérablement...) peut acheter des mots-clés comme " vacances ", " hôtel " et " plage " ou " Cannes ", " Antibes " et " Nice " si elle est spécialisée dans cette région. Cet achat permet d'obtenir un référencement (Le référencement est l'action de référencer, c'est-à-dire mentionner quelque chose ou y faire référence.) dit "référencement payant" à distinguer du référencement dit "référencement naturel".

Le moteur de recherche peut afficher la publicité de deux manières : en encart séparé ou en l'intégrant aux résultats de la recherche. Pour le visiteur, l'encart séparé se présente comme une publicité classique. L'intégration aux résultats se fait en revanche au détriment de la pertinence des résultats et peut avoir des retombées négatives sur la qualité perçue du moteur. De ce fait, tous les moteurs ne vendent pas de placement dans les résultats.

Les moteurs de recherche constituent un enjeu économique. La valeur boursière de Google, principal moteur de recherche, est de 165 milliards d'€uros en janvier 2008.

Techniques de détournement

L'importance des enjeux économiques a généré des techniques de détournement malhonnêtes des moteurs de recherche pour obtenir des référencements "naturels", le spamdexing (Spamdexing est un néologisme anglais composé du substantif spam et du suffixe dexing pris sur le terme indexing signifiant référencement. En français, on traduit spamdexing par référencement...).

Les trois techniques les plus pratiquées de spamdexing sont :

- Le cloaking, qui est une technique permettant de fournir une page différente (En mathématiques, la différente est définie en théorie algébrique des nombres pour mesurer l'éventuel défaut de dualité d'une application définie à l'aide de la trace, dans l'anneau des entiers...) aux moteurs de recherche de celle visible par un internaute (Un internaute est un utilisateur du réseau Internet.).

- Le zurnisme, qui est la création d'un néologisme pour obtenir une exclusivité de référencement.

- Les sites miroirs, qui sont des copies exactes d'un site internet (Internet est le réseau informatique mondial qui rend accessibles au public des services variés comme le courrier électronique, la messagerie instantanée et le World Wide Web, en...) mais sous une autre adresse (Les adresses forment une notion importante en communication, elles permettent à une entité de s'adresser à une autre parmi un ensemble d'entités. Pour qu'il n'y ait pas d'ambiguïté,...).

Les techniques de spamdexing sont pourchassées par les éditeurs de moteurs de recherches, qui constituent des "blacklists" provisoires ou définitives. Toutefois, le zurnisme demeure indétectable, aucun logiciel (En informatique, un logiciel est un ensemble d'informations relatives à des traitements effectués automatiquement par un appareil informatique....) n'ayant la capacité de discerner le néologisme véritable du faux néologisme construit dans le seul but d'un surréférencement gratuit.

En 2006, François Cazals, professeur à l’ISC Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région d’Île-de-France. Cette ville est construite sur une boucle de la Seine, au centre du...), organisait un concours de référencement sur la base du néologisme "zurtouij". Cette technique est améliorée par le zurnisme.

On distingue le spamdexing, détournement malhonnête, du SEO, Search Engine Optimisation. Les techniques de SEO sont commercialisées par des sociétés spécialisées.

Vente de technologie

Les grandes organisations (entreprises, administrations) disposent généralement de très nombreuses ressources informatiques dans un vaste intranet. Leurs ressources n'étant pas accessibles depuis Internet, elles ne sont pas couvertes par les moteurs de recherche du web. Elles doivent donc installer leur propre moteur si elles veulent mener des recherches dans leurs ressources. Elles constituent donc un marché pour les développeurs de moteurs de recherche.

Il arrive également que des sites web publics utilisent les services d'un moteur de recherche pour étoffer leur offre. Ainsi Yahoo!, spécialiste de l'annuaire web, a utilisé pendant quelques années la technologie de Google pour la recherche, jusqu'à ce qu'elle lance son propre moteur de recherche Yahoo Search Technology en 2004, dont les fondations (Les fondations d'un ouvrage assurent la transmission et la répartition des charges (poids propre et surcharges climatiques et d'utilisation) de cet ouvrage sur le sol. Le mode de fondation sera établi suivant...) proviennent de Altavista (AltaVista (littéralement « vue d'en haut ») est un moteur de recherche du World Wide Web. Il fut mis en ligne à l'adresse web altavista.digital.com en décembre 1995...), Inktomi et Overture, sociétés fondatrices des moteurs de recherche et rachetées par Yahoo!.

Évolution vers le web sémantique (Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels, grâce à un...)

Dans la mesure où les producteurs de contenu indexent les bases avec des métadonnées ou des taxinomies (ontologies), les moteurs de recherche vont devoir s'adapter aux analyses sémantiques. Par rapport aux recherches plein texte, les recherches dans le web sémantique sont beaucoup plus efficaces.

Quelques exemples de moteurs de recherche sémantiques :

  • CORESE, développé à l'INRIA
  • KartOO et Ujiko
  • Lingway KM est une plateforme linguistique et sémantique multilingue permettant le développement de moteurs de recherche spécialisés
  • Sinequa (Sinequa est l’éditeur du progiciel Sinequa CS, une solution de recherche et de navigation pour l’entreprise.) CS de Sinequa
  • Zoom, d'Acetic
  • Pertimm

Principaux moteurs de recherche

Selon une étude du cabinet Comscore réalisée en août 2007[1]:

  • (Exalead) (moteur de recherche français dit de nouvelle génération)
  • (Wikia) (moteur de recherche open source)
  • (Google) (environ 60% des 61 milliards de recherches sur internet)
  • (Yahoo) (8,5 milliards de recherches, soit 14% du total)
  • Sharelook moteur de recherche, entre autres intègre dans les Lycos
  • Baidu (Baidu (NASDAQ : BIDU) (chinois : ??, pinyin : b?i dù) est un moteur de recherche chinois qui peut chercher du texte et des images. En mai 2006, c'était le quatrième site le plus visité sur...), "le Google chinois" qui monte en puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) (3,3 milliards de requêtes, soit 5,4% du total),
  • Live Search (Live Search (anciennement Windows Live Search) est un moteur de recherche. Ce service de Microsoft s'inscrit dans l'ensemble Windows Live et remplacera...), moteur de recherche de Microsoft (Microsoft Corporation (NASDAQ : MSFT) est une multinationale américaine de solutions informatiques, fondée par Bill Gates et Paul Allen, dont le revenu annuel a atteint 44,28...) (2,1 milliards de recherches, 3,4%)
  • Naver, moteur de recherche coréen du groupe NHN (2 milliards de recherches).
  • Le site de commerce eBay (1,3 milliard (Un milliard (1 000 000 000) est l'entier naturel qui suit neuf cent quatre-vingt-dix-neuf millions neuf cent quatre-vingt-dix-neuf mille neuf cent quatre-vingt-dix-neuf (999 999 999) et...) de recherches).
Source: Wikipédia publiée sous licence CC-BY-SA 3.0.

Vous pouvez soumettre une modification à cette définition sur cette page. La liste des auteurs de cet article est disponible ici.