Avant de commencer :
Pour gagner du temps :
Si vous comptez référencer votre site sur plusieurs outils de recherche, vous aurez à donner plusieurs fois les mêmes informations (adresse E-Mail, URL du site...) [Jussieu].
Il peut être intéressant d'écrire dans un fichier les informations qui reviendront le plus souvent (liste plus complète à [Jussieu2]):
Ensuite, renseignez-vous sur les moteurs les plus pertinents pour votre site :
Comment référencer un site en plusieurs langues?
Vous pouvez mélanger les deux langues au sein d'une même balise meta (déconseillé). Ou vous pouvez créer deux balises distinctes en spécifiant la langue pour chacune d'elles (HTML 4. 0) : Exemple pour un site en français et anglais :
<META NAME="keywords" LANG="fr" content="astuce">
<META NAME="keywords" LANG="en" content="tips">
Le mieux est de créer un répertoire pour chaque langue et de soumettre chacune des pages d'index (/en/index.html).
Si le site est plus gros, le mieux est de réserver un sous-domaine pour chaque langue (http://en.monsite.com). Les outils de recherche considèrent ainsi deux sites différents (URL+langue différentes). De plus, les cookies sont transférables d'un sous-site à l'autre s'ils sont enregistrées dans le domaine principal.
Le fichier robots.txt, présent à la racine du site permet de ne pas faire indexer une partie du site (voire le site en entier). Il indique les parties du sites à ne pas indexer par les moteurs.
Un exemple :# robots.txt pour le site http://www.adcom.fr
User-agent: * # : Tous les moteurs de recherche sont concernés.
Disallow: /rep1/ #: Interdit le référencement des répertoires rep1 et rep2
Disallow: /rep2/
Il est possible de spécifier un robot particulier à condition de connaître le nom de son crawler (l'agent indexant les pages).
Consultez :
http://info.webcrawler.com/mak/projects/robots/robots.html
http://info.webcrawler.com/mak/projects/robots/faq.html
Ce document est sous license Creative-Common (by-nc-sa)