Page principale \ Les Dossiers \ Web invisible

Le Web invisible, cet inconnu...



Ce document est sous license Creative-Common (by-nc-sa) - L'intégralité de ce dossier est téléchargeable ici. (15ko.)

Ces informations proviennent d’échanges de la liste Veille (http://www.yahoogroupes.fr/group/veille/) au cours du mois d'avril 2000.

Problématique

Il faut tout à bord considérer L’Internet comme l’univers : constamment en expansion. Dans les deux cas, il nous faut utiliser des outils pour répertorier, classer, indexer les nouvelles découvertes. Sur l’Internet, les annuaires et les moteurs de recherche remplacent les télescopes, mais comme lui, ils "scrutent" constamment l'horizon à la découverte de nouveaux éléments.

La différence fondamentale est qu’Internet est " un peu " organisé. Il peut se décomposer en sites (eux-mêmes découpés en sous-parties...) que les spiders des moteurs indexent inlassablement. On peut considérer les spiders comme des automates qui remplissent les bases de connaissances des moteurs (certains moteurs/annuaires... partagent les mêmes bases). Bases qui seront mises à contribution pour répondre aux requêtes des utilisateurs des outils de recherche.

Introduction

Mais ces spiders ne sont pas capables d’indexer tous les éléments qu’ils peuvent trouver. De fait, ils laissent de côté un grand nombre de documents :

Enfin, il faut ajouter à tout cela "les informations sur lesquelles on tombe en cliquant sur certaines bannières publicitaires; en naviguant souvent sur Internet; en tapant, intentionnellement, une fausse URL [Adresse d'un site Internet],...Bref chacun de nous est potentiellement détenteur d'une partie du Web invisible".

En résumé, le Web invisible correspond à l’ensemble des documents (textes, vidéos, images...) qui n’est pas indexé par les outils de recherche (moteurs, annuaires...). Ces données peuvent être soient de nature non indexable (animations), non référencées (volontairement ou non), ou dynamiques.

On peut estimer que la part de l’invisible du Web s’élève à 30-35% du contenu total.

Les outils

[si vous pouvez améliorer cette liste (classement, ajouts...), n'hésitez pas à me contacter]

Heureusement pour nous, une palette d’outils est disponible pour exploiter tout ce nouvel univers:

Des explications sur le fonctionnement :

Les annuaires contiennent aussi des références. Par exemple :

Divers :

Pour aller plus loin :

Si le sujet vous intéresse, le Hors-série n°3 de Netsources (oct.99, 165F hors abonnement) porte pour titre "14 outils de recherche sur le Web invisible". Il est édité par la société Base Publications :

BASES Publications – 27, rue de la Vistule 75013 Paris, France

Tel : +33 01 45 82 75 75 – Fax : +33 01 45 82 46 04

E-mail : bases@iway.fr

Ce document est sous license Creative-Common (by-nc-sa)


Note: Ce site n'est plus mis à jour. Consultez Arnest.net pour plus de dossiers et d'informations. Me contacter.