De plus en plus de producteurs de contenu, à la suite des recommandations du W3C sur le Web sémantique, indexent leurs bases avec des métadonnées ou des taxinomies (ontologies), en vue de permettre aux moteurs de recherche de s'adapter aux analyses sémantiques.
Il convient de préciser que ces formes de recherches et d'analyses de corpus d'informations par voie informatique ne sont encore que des potentialités. De nombreux algorithmes ou méthodes de travail devront être mis au point avant de pouvoir créer un système de recherche d'information véritablement sémantique.
En effet, par comparaison avec des recherches plein texte, de véritables recherches réalisées sur le web sémantique devraient être beaucoup plus conviviales pour l'utilisateur: contrairement à un moteur interrogé en mode similarité (requête par mot clé appelant la fourniture de documents pertinents) un système sémantique n'impose pas à l'utilisateur de fournir les éléments de la réponses sous forme de mots clés.
Il n'existe pas encore à proprement parler de moteur de recherche sémantique. Mettre au point un véritable moteur de recherche capable de comprendre et de fournir du sens et capable de comprendre une question en langue naturelle ou d'adapter une réponse en fonction d'un ensemble d'information) est encore difficile. Quelques tentatives existent néanmoins pour chercher à répondre par des formes intermédiaires à cette problématique du sens dans la recherche d'information:
Afin d'optimiser les moteurs de recherche, les webmestres insèrent des métaéléments (métatags) dans les pages web, dans l'en-tête HTML (head). Ces informations permettent d'optimiser les recherches d'information sur les sites web.
Les sites dont la recherche est le principal service se financent par la vente de technologie et de publicité.
Le financement par la publicité consiste à présenter des publicités correspondant aux mots recherchés par le visiteur. L'annonceur achète des mots-clés : par exemple une agence de voyage peut acheter des mots-clés comme « vacances », « hôtel » et « plage » ou « Cannes », « Antibes » et « Nice » si elle est spécialisée dans cette région. Cet achat permet d'obtenir un référencement dit "référencement payant" à distinguer du référencement dit "référencement naturel".
Le moteur de recherche peut afficher la publicité de deux manières : en encart séparé ou en l'intégrant aux résultats de la recherche. Pour le visiteur, l'encart séparé se présente comme une publicité classique. L'intégration aux résultats se fait en revanche au détriment de la pertinence des résultats et peut avoir des retombées négatives sur la qualité perçue du moteur. De ce fait, tous les moteurs ne vendent pas de placement dans les résultats.
Les moteurs de recherche constituent un enjeu économique. La valeur boursière de Google, principal moteur de recherche, est de 165 milliards d'euros en janvier 2008.
L'importance des enjeux économiques a généré des techniques de détournement malhonnêtes des moteurs de recherche pour obtenir des référencements "naturels", le spamdexing.
Les techniques les plus pratiquées de spamdexing sont :
Les techniques de spamdexing sont pourchassées par les éditeurs de moteurs de recherches, qui constituent des "blacklists" provisoires ou définitives.
On distingue le spamdexing, détournement malhonnête, du SEO, Search Engine Optimisation. Les techniques de SEO sont commercialisées par des sociétés spécialisées.
Les grandes organisations (entreprises, administrations) disposent généralement de très nombreuses ressources informatiques dans un vaste intranet. Leurs ressources n'étant pas accessibles depuis Internet, elles ne sont pas couvertes par les moteurs de recherche du web. Elles doivent donc installer leur propre moteur si elles veulent mener des recherches dans leurs ressources. Elles constituent donc un marché pour les développeurs de moteurs de recherche.
Il arrive également que des sites web publics utilisent les services d'un moteur de recherche pour étoffer leur offre. On parle alors de SiteSearch. Ces logiciels permettent la recherche de contenus dans un ou plusieurs groupes de sites. Ces technologies sont particulièrement exploitées sur les sites de contenus et les sites de vente en ligne. La particularité de ces outils est souvent la complexité de mise en œuvre et les ressources techniques nécessaires disponibles.
Il arrive aussi que les grands portails exploitent la technologie des moteurs de recherche. Ainsi Yahoo!, spécialiste de l'annuaire web, a utilisé pendant quelques années la technologie de Google pour la recherche, jusqu'à ce qu'elle lance son propre moteur de recherche Yahoo Search Technology en 2004, dont les fondations proviennent de Altavista, Inktomi et Overture, sociétés fondatrices des moteurs de recherche et rachetées par Yahoo!.