Raisons de la non-indexation
- Les sites contiennent de plus en plus de pages dynamiques : les hyperliens de navigation sont générés à la demande et diffèrent d'une visite à l'autre.
- Il faut parfois remplir convenablement un formulaire de critères de recherche pour pouvoir accéder à une page précise. C'est le cas de sites exploitant des banques de données.
- Certains sites nécessitent une authentification avant d'accéder au contenu réel : c'est le cas des sites avec des archives payantes (journaux en ligne, bases de données de météorologie, etc.) pouvant atteindre des téraoctets de données. Par exemple, le National Climatic Data Center met en ligne une base de données contenant 370 000 Go, alors que celui de la NASA est de 220 000 Go.
- Les pages web peuvent dans leur conception rendre difficile leur indexation. Elle peuvent en particulier contenir des éléments HTML frameset au lieu des éléments classiques body.
Or un robot n'est guère capable d'émettre des requêtes pertinentes ; sa visite d'indexation se réduit donc aux seules pages accessibles en cliquant sur des URL statiques.
- Le web invisible est également constitué des ressources utilisant des formats de données incompréhensibles par les moteurs de recherche. Cela a été longtemps le cas du format PDF. Au XXIe siècle, tous les grands moteurs de recherche (Google, Yahoo!, MSN...) sont capables d'indexer les documents utilisant ce format. Depuis le début de 2008, Google reconnaît les pages au format flash.
- L'utilisation du langage JavaScript, incompris par les robots, pour lier les pages entre elles constitue souvent un frein à leur indexation.
Certaines pages sont inaccessibles aux robots du fait de la volonté de l'administrateur du site web. Il est possible, à l'aide d'un petit fichier (robots.txt) mis à la racine d'un site web, de bloquer tout ou partie du site aux robots qui coopèrent, le site restant accessible aux internautes. Ces pages sont parfois rangées dans une catégorie connexe à celle du web profond : le web privé (private web).