Page principale \ Les Dossiers \ Wap

La révolution XML

Ce document est sous license Creative-Common (by-nc-sa)

- L'intégralité de ce dossier est téléchargeable ici. (21 Ko)

"XML (eXtensible Markup Language) est un langage normalisé par le W3C (organisme chargé de définir des standards pour Internet) apparu en 1998. Bien plus qu'un nouveau langage, c'est une nouvelle approche des développements qui est proposée aux responsables des systèmes d'information." [Neteco]

Mais nous verrons que malgré une simplicité évidente, ce langage apporte un flot de contraintes.

Un des grands intérêts d'XML est d'adapter l'information au média de réception.
Prenons un exemple : les informations concernant le trafic en région parisienne sont collectées en temps réel à partir de plusieurs sources de données, bâties sur des systèmes distants et hétérogènes. Chacun d'eux dialoque avec le serveur dans le format XML. Ce sont strictement les mêmes données qui seront adressées à chacun des clients du service. Mais en parallèle, un fichier type XSL (feuille de style) spécifie au terminal (PC, palm, GSM...) la façon de publier ces données en fonction de ses capacités d'affichage :

(Source : Magazine Industries et Techniques n~ 813, mars 2000)

Un langage adapté à tous les usages et échanges :

Aujourd'hui, la grande majorité des éditeurs ont ajouté des fonctions orientées Internet dans leurs produits et ont adoptés XML. La plupart des gammes d'outils sont capables de lire des documents XML :

Du côté technique :

A travers un parallèle avec le langage HTML et ses défauts, nous allons voir comment XML résout ces derniers.

Un document HTML est articulé autour de balises, des commandes interprétées par le navigateur mais qui ne seront pas affichées à l’écran.

La principale, <BODY> définit le corps du document, les autres permettent de définir des titres, de créer des tableaux, d’ajouter des images, créer des liens hypertextes (renvoi sur un autre document)... La majorité de ces balises indiquent au navigateur comment doivent être positionnés les différents éléments : textes, graphiques...

Avec ce système, le document ne peut-être vu que comme un seul bloc de données non structuré (il est impossible d’accéder directement à un élément particulier). En conséquence, les moteurs de recherches (Altavista, Voila....) ne peuvent qu’indexer les sites mot à mot. Ainsi, " lorsque le spider (l’automate qui parcourt les pages) indexe une page de bibliographie, il ne fait aucune différence de niveau entre le nom de l’auteur, celui de l’éditeur ou le titre de l’ouvrage. " [IT]

XML bouleverse tout en introduisant de nouvelles balises, dites sémantiques parce qu’elles structurent le sens des données. Ainsi, on trouvera par exemple une balise <OUVRAGE> Les Misérables </OUVRAGE>. Ces nouvelles balises sont définies par le concepteur de la page : la liberté de créer et d’imbriquer ces balises est totale ! On peut donc très facilement traiter une bibliographie :

<AUTEUR>
<OUVRAGE>Les Misérables </OUVRAGE>
</AUTEUR>

Suivant cette logique, les liens hypertextes et autres éléments cliquables sont étendus aux objets du document et non plus seulement à une "ancre" (un emplacement dans le document).

Pour l’utilisateur, la recherche d’informations devient beaucoup plus précise. Il devient possible de consulter une page sans devoir la parcourir: plusieurs formes d’un même document seront disponibles: index, résumé, document entier... Et si on peut le faire pour un, on peut le faire pour plusieurs... (accès aux résumés de tous les ouvrages d’un auteur dans notre exemple).

Pour comprendre comment cela est possible, il faut nous pencher sur la manière de fonctionner d’XML.
Les données, leur structure et leur présentation sont complètement disjointes. Ainsi, il sera possible de présenter de manières très différentes un même contenu : en format résumé et sans images pour un mobile Wap, formaté pour une imprimante, adapté à un écran d'un ordinateur de bureau...

Quelle puissance, n’est-ce pas ? Imaginons : vous consultez un plan : celui-ci peut s’afficher avec tous les détails sur l’écran de votre ordinateur de bureau, mais sur votre mobile Wap, ce serait utopique de vouloir tout afficher.
Avec le format XML, on peut utiliser le même document pour les deux. " Jean-Christophe Bernadac ( Cosmoboy) précise : " C’est exactement la même information (fichier XML) qui parvient aux deux.
Seul diffère le fichier de présentation (Feuille de style XSL) dans lequel le terminal apprend de quelle façon "publier l’information ".

"XML va doper l'essor du commerce électronique"

"Pour comprendre, il faut descendre au coeur du langage. Un document HTML est ponctué par des blaises, c'est à dire des commandes écrites en clair, non affichées à l'écran, mais qu'interprète le navigateur. La principale balise () définit le corps du docuemnt. Les autres balises définissent des titres, ouvrent des tableaux, insèrent des images, créent des liens hypertextes vers d'autres parges, encapsulent des morceaux de programmes... La plupart de ces balises ont trait à la présentation de la page, c'est à dire qu'elles indiquent au logiciel de navigation comment positionner les différents éléments graphiques et textuels sur l'écran. Pour autant, le document dans son entier ne forme qu'un seul bloc de données non structuré. Ainsi, les moteurs de recherche (Altavista, Yahoo!...) qui scrutent et passent au scrible les millions de pages Web ne font que les indexer mot à mot. Lorsque le moteur indexe une page de bibliographie, il ne fait aucune différence de niveau entre le nom de l'auteur, celui de l'éditeur ou le titre des ouvrages.

Et XML ? Il fournit une alternative très souple, et au doux fouillis des pages HTML et à la rigueur toute militaire des bases de données. En effet, en marge des balises de présentation familières à HTML (enrichies), XML introduit des balises, dites sémantiques, parce qu'elles structurent le sens des données. Ces nouvelles balises ne sont évidemment pas spécifiés par le langage, mais définies par le concepteur de la page qui a toute liberté de créer et d'imbriquer ces balises spécifiques. L'enrichissement sémantique du document s'étend aux liens (les éléments cliquables). Dans XML, ceux-ci ne pointent plus vers un élément du texte mais un objet du document.

Côté utilisateur, l'avantage est grand. Le document visualisé étant soutenu par une logique et les logiels de navigation (Microsoft Internet Explorer version 5, Netscape prochainement) sachant interpréter cette logique, il est possible de questionner la page sans devoir en parcourir tout le contenu." (Source : Magazine Industries et Techniques n~ 813, mars 2000)



Les défauts :

XML, c’est bien, mais ....

XML, c’est complexe : Bien plus simple en théorie que le HTML dont il hérite (moins de balises à apprendre), il est en pratique beaucoup plus complexe. Chaque fichier XML doit passer l’épreuve d’un correcteur de syntaxe (parser), c’est à dire un petit module qui vérifie que les balises sont bien articulées et que le document est écrit "dans les règles".

XML est "lourd" : Du fait de sa structure, XML est gourmand en mémoire et long à télécharger : il faut définir toutes les balises, expliciter comment elles s’organisent avant de pouvoir véritablement écrire l’information.

Vu l’engorgement actuel des "tuyaux" de l’Internet, on réfléchit à deux fois avant d’écrire un document en XML.... Mais il faudra attendre quelques mois pour que les débits des réseaux augmentent, et XML pourra enfin prendre la place qu’il mérite dans les échanges.



Le domaine d'excellence d’XML : Le partage d'information

Encore une fois, du fait de sa structure (finalement, que du texte), XML est la solution idéale pour les échanges entre des serveurs, systèmes et langages hétérogènes. En effet, vu que le mode d’emploi est envoyé avec le document, n’importe quelle application peut échanger de l’information avec n’importe quelle autre ! De plus, sur un même document, on peut définir plusieurs "vues" (pour reprendre un terme des bases de données), c’est à dire qu’en configurant l’application, on peut définir ce que verra chacun : le résumé pour une personne non abonnée, le document complet pour les abonnés.

Malgré les efforts des éditeurs, XML peine à conquérir les PME

XML était censé simplifier les échanges entre les entreprises. Il rend en théorie possible de formaliser les devis, factures et les documents techniques directement à partir des données du système d'information (en général, un PGI, Progiciel de Gestion Intégré, comme SAP). Mais sa complexité extrême lui ferme les portes des entreprises.

"L'exhaustivité d'XML impose une réflexion préalable qui nuit à la productivité d'une PME. Il nécessite de schématiser la structure de la documentation de l'entreprise, la charte graphique et la trame de données pour des documents et les fiches produits. Cela peut nécessiter entre six mois et un an de travail !" (Décision Micro&Réseaux)

L'adoption d'XML par les PME nécessite donc un investissement très important. Les éditeurs cherchent également à simplifier les outils. Par exemple, l'éditeur (américain) NetLedger propose sur le site Smbxml.org les premières spécifications du langage SMBXML (Small and Medium Business XML). Ce dialecte XML intère des balises et des matrices concernant les blocs d'informations spécifiques à l'activité des PME.
Ainsi, SMBXML intègre deux DTD :

Suite : Finalement, XML n’est pas devenu le langage de publication sur le Web.

Références :

Pour aller plus loin :

(les adresses non précisées sont en français)

Un portail sur XML : http://xmlfr.org (à noter : 2 listes de diffusion : techniques et décideurs)

Pour comprendre ce qu’est XML :

http://www.chez.com/xml/initiation/index.htm: XML expliqué au débutant, avec exemples.

Vous êtes prêts à écrire du XML ? Quelques adresses :

Ce document est sous license Creative-Common (by-nc-sa)


Note: Ce site n'est plus mis à jour. Consultez Arnest.net pour plus de dossiers et d'informations. Me contacter.