Le Web invisible, cet inconnu...
Ce document est sous license Creative-Common (by-nc-sa) - L'intégralité de ce dossier est téléchargeable ici. (15ko.)
Ces informations proviennent d’échanges de la liste Veille (http://www.yahoogroupes.fr/group/veille/) au cours du mois d'avril 2000.
Problématique
Il faut tout à bord considérer L’Internet comme l’univers : constamment en expansion. Dans les deux cas, il nous faut utiliser des outils pour répertorier, classer, indexer les nouvelles découvertes. Sur l’Internet, les annuaires et les moteurs de recherche remplacent les télescopes, mais comme lui, ils "scrutent" constamment l'horizon à la découverte de nouveaux éléments.
La différence fondamentale est qu’Internet est " un peu " organisé. Il peut se décomposer en sites (eux-mêmes découpés en sous-parties...) que les spiders des moteurs indexent inlassablement. On peut considérer les spiders comme des automates qui remplissent les bases de connaissances des moteurs (certains moteurs/annuaires... partagent les mêmes bases). Bases qui seront mises à contribution pour répondre aux requêtes des utilisateurs des outils de recherche.
Introduction
Mais ces spiders ne sont pas capables d’indexer tous les éléments qu’ils peuvent trouver. De fait, ils laissent de côté un grand nombre de documents :
- Tout d’abord, tous les fichiers ne sont pas indexés : impossible donc de trouver un document (de traitement de texte, tableur...), une animation (Flash), un fichier Pdf... Seuls les fichiers musicaux (MP3, midi), images (gif, jpg...) et documents au format HTML (bientôt ceux au format XML) sont " correctement " indexés.
- Les spiders n’indexent pas la totalité des sites qu’ils visitent : ils choisissent quelques liens, et au mieux indexent un niveau de l’arborescence. D’où l’importance des fameux " metatags " et de la page d’accueil... De même les annuaires refusent plus de sites qu’ils n’en acceptent (pour ne garder que les plus représentatifs). Si un site n’est pas référencé et qu’aucun autre site ne pointe sur lui, il est tout simplement introuvable....
- Une bonne partie des sites sont trop nouveaux ou n’ont pas fait la démarche du référencement pour être présent dans les bases des outils. Par exemple, certaines parties des sites des universités.
- Il est courant désormais de consulter des pages dites " dynamiques " (.asp, .php, .pl...), c’est à dire créées par un script (perl, php, python...). Certaines pages sont générées par des scripts à partir des informations d’une (ou plusieurs) base(s) de données. Les spiders étant incapables de tester toutes les solutions, ces pages restent invisibles si on se contente des outils classiques. Les forums ne sont pas indexés à ma connaissance (écrivez-moi à lolosfactory@arnest.net si je me trompe, merci.)
- Les pages d’un site peuvent être " interdites de référencement ". En utilisant un fichier " Robots.txt " (http://info.webcrawler.com/mak/projects/robots/faq.html), il est possible d’interdire le référencement de tout ou partie d’un site aux moteurs de recherche. Pensez à toutes les données confidentielles d’une entreprises (dans le cas d’un extranet par exemple).
- L'information est mal indexée par le moteur. L'algorithme utilisé n'a pas été n'a pas jugé pertinente la page visée par-rapport à la requête.
Enfin, il faut ajouter à tout cela "les informations sur lesquelles on tombe en cliquant sur certaines bannières publicitaires; en naviguant souvent sur Internet; en tapant, intentionnellement, une fausse URL [Adresse d'un site Internet],...Bref chacun de nous est potentiellement détenteur d'une partie du Web invisible".
En résumé, le Web invisible correspond à l’ensemble des documents (textes, vidéos, images...) qui n’est pas indexé par les outils de recherche (moteurs, annuaires...). Ces données peuvent être soient de nature non indexable (animations), non référencées (volontairement ou non), ou dynamiques.
On peut estimer que la part de l’invisible du Web s’élève à 30-35% du contenu total.
Les outils
[si vous pouvez améliorer cette liste (classement, ajouts...), n'hésitez pas à me contacter]
Heureusement pour nous, une palette d’outils est disponible pour exploiter tout ce nouvel univers:
Des explications sur le fonctionnement :
Les annuaires contiennent aussi des références. Par exemple :
Divers :
Pour aller plus loin :
Si le sujet vous intéresse, le Hors-série n°3 de Netsources (oct.99, 165F hors abonnement) porte pour titre "14 outils de recherche sur le Web invisible". Il est édité par la société Base Publications :
BASES Publications – 27, rue de la Vistule 75013 Paris, France
Tel : +33 01 45 82 75 75 – Fax : +33 01 45 82 46 04
E-mail : bases@iway.fr
Ce document est sous license Creative-Common (by-nc-sa)
Note: Ce site n'est plus mis à jour. Consultez Arnest.net pour plus de dossiers et d'informations. Me contacter.