Le web profond (par opposition au web surface ou web surfacique), correspond aux pages web non indexées par les moteurs de recherche (mais néanmoins accessibles). Hé bien cette « face cachée » de l’Internet correspondrait à plus de 99 % de la totalité des pages web… Wahou, tout ça !
On estime que ce serait 99,7 % des contenus web qui seraient invisibles des moteurs de recherche. Alors où se cachent donc toutes ces pages ? Comment peuvent-elles passer à côté des robots des moteurs de recherche ? La vérité n’est pas si improbable que ça finalement quand on y réfléchit.
Du contenu non indexable
Il y a d’abord beaucoup de contenus web qui ne sont pas répertoriés par les robots :
- Les scripts (JavaScript, Flash [quoique])
- Les contenus qui requièrent l’action d’un humain (identification avec mot de passe) ou qui sont générés à la suite d’un remplissage de formulaire
- Les pages non conformes
Le contenu non accessible au public
Ensuite, il y a tous les contenus qui ne sont pas accessibles au public :
- Les Intranets
- Les sites réservés aux autorités (gouvernement, armée, universités…)
- Les documents et informations bancaires, assurance…
- Les catalogues et bases de données (médicales, universitaires) et archives protégées ou payantes (la Nasa c’est une base de données 220 000 Go !)
- etc.
Puis vous avez aussi tous les sites ou bases de données illégaux où l’on retrouve des termes interdits… mais aussi les sites pirates qui contiennent des millions de fichiers, etc.
Le contenu mort d’internet
Enfin, depuis près de 50 ans d’existence, le web contient des millions de pages web « mortes » : sites, pages, blogs, réseaux sociaux qui ne sont plus mis à jour.
Internet est un immense bordel qui n’est pas près de s’organiser quand on sait qu’il se crée tous les jours des milliers de nouvelles pages et qu’il en disparaît autant.