Page principale \ Les Dossiers \ Web invisible

Le Web invisible, cet inconnu...

Ce document est sous license Creative-Common (by-nc-sa) - L'intégralité de ce dossier est téléchargeable ici. (15ko.)

Ces informations proviennent d’échanges de la liste Veille (http://www.yahoogroupes.fr/group/veille/) au cours du mois d'avril 2000.

Problématique

Il faut tout à bord considérer L’Internet comme l’univers : constamment en expansion. Dans les deux cas, il nous faut utiliser des outils pour répertorier, classer, indexer les nouvelles découvertes. Sur l’Internet, les annuaires et les moteurs de recherche remplacent les télescopes, mais comme lui, ils "scrutent" constamment l'horizon à la découverte de nouveaux éléments.

La différence fondamentale est qu’Internet est " un peu " organisé. Il peut se décomposer en sites (eux-mêmes découpés en sous-parties...) que les spiders des moteurs indexent inlassablement. On peut considérer les spiders comme des automates qui remplissent les bases de connaissances des moteurs (certains moteurs/annuaires... partagent les mêmes bases). Bases qui seront mises à contribution pour répondre aux requêtes des utilisateurs des outils de recherche.

Introduction

Mais ces spiders ne sont pas capables d’indexer tous les éléments qu’ils peuvent trouver. De fait, ils laissent de côté un grand nombre de documents :

Tout d’abord, tous les fichiers ne sont pas indexés : impossible donc de trouver un document (de traitement de texte, tableur...), une animation (Flash), un fichier Pdf... Seuls les fichiers musicaux (MP3, midi), images (gif, jpg...) et documents au format HTML (bientôt ceux au format XML) sont " correctement " indexés.

Les spiders n’indexent pas la totalité des sites qu’ils visitent : ils choisissent quelques liens, et au mieux indexent un niveau de l’arborescence. D’où l’importance des fameux " metatags " et de la page d’accueil... De même les annuaires refusent plus de sites qu’ils n’en acceptent (pour ne garder que les plus représentatifs). Si un site n’est pas référencé et qu’aucun autre site ne pointe sur lui, il est tout simplement introuvable....

Une bonne partie des sites sont trop nouveaux ou n’ont pas fait la démarche du référencement pour être présent dans les bases des outils. Par exemple, certaines parties des sites des universités.

Il est courant désormais de consulter des pages dites " dynamiques " (.asp, .php, .pl...), c’est à dire créées par un script (perl, php, python...). Certaines pages sont générées par des scripts à partir des informations d’une (ou plusieurs) base(s) de données. Les spiders étant incapables de tester toutes les solutions, ces pages restent invisibles si on se contente des outils classiques. Les forums ne sont pas indexés à ma connaissance (écrivez-moi à lolosfactory@arnest.net si je me trompe, merci.)

Les pages d’un site peuvent être " interdites de référencement ". En utilisant un fichier " Robots.txt " (http://info.webcrawler.com/mak/projects/robots/faq.html), il est possible d’interdire le référencement de tout ou partie d’un site aux moteurs de recherche. Pensez à toutes les données confidentielles d’une entreprises (dans le cas d’un extranet par exemple).

L'information est mal indexée par le moteur. L'algorithme utilisé n'a pas été n'a pas jugé pertinente la page visée par-rapport à la requête.

Enfin, il faut ajouter à tout cela "les informations sur lesquelles on tombe en cliquant sur certaines bannières publicitaires; en naviguant souvent sur Internet; en tapant, intentionnellement, une fausse URL [Adresse d'un site Internet],...Bref chacun de nous est potentiellement détenteur d'une partie du Web invisible".

En résumé, le Web invisible correspond à l’ensemble des documents (textes, vidéos, images...) qui n’est pas indexé par les outils de recherche (moteurs, annuaires...). Ces données peuvent être soient de nature non indexable (animations), non référencées (volontairement ou non), ou dynamiques.

On peut estimer que la part de l’invisible du Web s’élève à 30-35% du contenu total.

Les outils

[si vous pouvez améliorer cette liste (classement, ajouts...), n'hésitez pas à me contacter]

Heureusement pour nous, une palette d’outils est disponible pour exploiter tout ce nouvel univers:

http://urfist.univ-lyon1.fr/gratuits.html : Une référence dans les domaines de la santé et de la médecine. A voir aussi, des astuces pour interroger Altavista à propos des bases de données.
http://www.invisibleweb.com/ : Le site classique pour commencer une recherche dans ce domaine.
Le All-One-Search (http://www.allonesearch.com/) : "le plus ancien de ces outils de recherches en bases de données il vous permet de chercher à l'intérieur de différentes bases de données (en électonique ou informatique notamment) sinon c'est un croisement entre le moteur de recherche sur les prix de produits, les sources internet. Difficile à appréhender."
Argus Clearinghouse (http://www.clearinghouse.net/ ) : "le plus connu des outils du web". Défaut : pas de définition ou de résumé des bases de données.
Alpha search (http://www.calvin.edu/library/searreso/internet/as/) : un autre outil bien réalisé. Il est possible de préciser si on cherche une base de donnée, un document officiel ou un journal. (pas de recherche avancée.)
Site international des bibliothèques. ( http://www.lights.com/webcats/ )
Bubl Link (http://bubl.ac.uk/link/) : (L'outil intègre des milliers de liens de bases de données mais aussi de sites fondamentaux. Un outil à avoir dans ses favoris.
Infomine (http://infomine.ucr.edu/main.html) : un "délicieux et gigantesque bric à brac...". "Créé par l'Université de Californie il s'agit d'un travail intéressant et titanesque à avoir dans ses favoris."
http://lii.org/ : La librarians index de l'Université de Berkeley. Elle inclut "les listes de diffusion, les sources majeures, les encyclopédies et les dictionnaires" (peu pertinent sur les deux derniers).
The Internet Public Library (http://www.ipl.org)
Un répertoire de périodiques (http://www.publist.com/). L'intérêt principal de cet outil est que les sites sont bien classés avec une fiche technique et descriptive.
The Scout Report Signpost (http://www.signpost.org/signpost/) : site créé par l'Université du Wisconsin, la National Science Fundation et la Library du Congrés. "Très mauvais pour les sujets scientifiques mais très bon pour les sujets historiques".
Librarians' Index to the Net (http://sunsite.berkeley.edu/InternetIndex )
http://www.coalliance.org/ : un programme d'universités américaines regroupant leurs ressources documentaires. "Des ressources en bases de données, références d'articles et Newsletters". "Trop mal organisé sur ce sujet mais très bon pour localiser des journaux électroniques".
NewJour (http://gort.ucsd.edu/newjour )
Electronic Journal Access (http://www.coalliance.org/ejournal )
The Big Hub (http://www.thebighub.com )
Strategic Road (http://www.strategic-road.com ) : ce site vous propose de réaliser vos recherches par thèmes.
The WWW Virtual Library (http://www.vlib.org )

Des explications sur le fonctionnement :

Les annuaires contiennent aussi des références. Par exemple :

http://dir.lycos.com/Reference/Searchable_Databases : Plus d'une dizaine de thèmes et plus 380 millions de pages référencées et organisés.

Divers :

Pour aller plus loin :
Si le sujet vous intéresse, le Hors-série n°3 de Netsources (oct.99, 165F hors abonnement) porte pour titre "14 outils de recherche sur le Web invisible". Il est édité par la société Base Publications :

BASES Publications – 27, rue de la Vistule 75013 Paris, France

Tel : +33 01 45 82 75 75 – Fax : +33 01 45 82 46 04

E-mail : bases@iway.fr

Ce document est sous license Creative-Common (by-nc-sa)

Note: Ce site n'est plus mis à jour. Consultez Arnest.net pour plus de dossiers et d'informations. Me contacter.