Le repérage de l'information sur Internet :
 catalogage et indexation des ressources sur le World Wide Web 
I. Internet




Plan de cette partie :


Introduction

La présentation d'Internet qui suit n'est en aucun cas un guide expliquant comment utiliser Internet aux particuliers ni aux internautes débutants. Il s'agit surtout de comprendre les principes fondamentaux et les mécanismes physiques de fonctionnement du réseau afin de poser une base solide sur laquelle s'appuieront les réflexions que nous nous proposons de mener dans la suite de ce mémoire.



I.1 Historique

"L'Internet est un réseau de réseaux initialement destiné aux besoins d'échanges et de communication entre centres de l'armée, centres de recherche et universités. Il a été constitué d'infrastructures fournies gratuitement par le Département de la défense américaine (DOD) et par les universités. Il permet l'interconnexion des sites informatiques et de réseaux locaux d'entreprises. La conception de son protocole prévu pour survivre en cas de destruction partielle lui donne une grande flexibilité d'extension et de reconfiguration. Avec les coûts abaissés par la prise en charge d'une partie de son exploitation par l'administration fédérale, Internet s'est largement étendu au niveau mondial." (THÉRY,94)1


Internet est une interconnexion de réseaux hétérogènes, c’est un réseau (net en anglais) de réseaux dispersés dans le monde entier et fédérés sur la base d'un protocole commun de transmission des données : TCP/IP (Transmission Control Protocol / Internet Protocol) qui, sans être une norme à proprement parler, est un standard de fait qui fournit un langage commun pour l'interopérabilité des différents types de réseaux locaux. Internet est généralement défini comme le réseau des réseaux, le réseau international ou encore l'interconnexion des réseaux mondiaux.


Si l'Internet apparaît en France en 1988 et que son appellation date de 1983, son origine remonte bien plus loin. L'espace réticulaire mondial qu'il constitue aujourd'hui est issu du réseau ARPAnet (Advanced Research Project Agency network) créé en 1969 par la DARPA (Defense Projects Research Agency), dépendante du Department of Defense des États-Unis.


ARPAnet était un réseau expérimental créé à des fins de recherche militaire, appliquées entre autres à l'étude de réseaux pouvant supporter des dommages partiels tout en restant opérationnels. Dans le modèle ARPAnet, les communications se passent toujours entre un ordinateur source et un ordinateur destinataire. Le réseau lui-même est considéré comme non-fiable ; n'importe qu'elle partie de réseau peut devenir hors service à chaque instant. Il est donc conçu de façon à ne nécessiter qu'un minimum d'information des ordinateurs connectés. Pour envoyer un message sur le réseau, un ordinateur doit simplement mettre ses données dans une enveloppe (appelée paquet IP) et fournir l'adresse de destination. Les ordinateurs assurant la communication (et non le réseau lui-même) doivent s'assurer que l'envoi a été effectué. La philosophie de base est que chaque ordinateur du réseau peut dialoguer d'égal à égal avec n'importe quel ordinateur connecté. (KROL,95)2 Le protocole TCP/IP, sur lequel nous reviendrons ultérieurement, est donc mis au point et permet le partage d’information de façon discrète et sécurisée entre différents points géographiques, dans le but de relier les différents sous-traitants de la recherche militaire de haute technologie et surtout afin de permettre la circulation des informations même lorsqu'un des points de passage de cette information (centre de communication, central téléphonique ou autre) est hors de service ou détruit par l'ennemi (pour rappel, le monde vit au rythme de la Guerre Froide).


En 1979, des étudiants de la Duke University, à Durham (Caroline du Nord), ont l'idée de relier des ordinateurs distants afin d'échanger des informations scientifiques. Tim Berners-Lee, chercheur au CERN (Centre Européen de Recherche Nucléaire), préconçoit le World Wide Web en mars 1989 [3] : l'Internet passe d'un petit réseau ouvert à quelques ordinateurs américains à un service hypertextuel, interactif, aujourd'hui utilisé par quelques 113 millions d'utilisateurs dans le monde [4]. Du monde militaire, puis universitaire, Internet s'est étendu aux grandes entreprises privées, aux P.M.E. et enfin aux particuliers. La période 1994-1995 a vu le réseau "exploser" : de nouveaux services, de nouveaux produits et surtout de nouveaux prestataires ont afflué sur le réseau.


Le succès de l'Internet dans le monde est en grande partie imputable à l'apparition de browsers et autres logiciels clients conviviaux (Eudora, Fecht, Mosaic, Netscape, etc.) qui ont permis aux individus ne connaissant pas les commandes UNIX d'utiliser enfin le réseau. Parallèlement, le W3, interface graphique de l'Internet l'a rendu plus agréable et a favorisé la croissance de son trafic. Ajoutons à cela les progrès réalisés en quelques années sur les interfaces graphiques des systèmes d'exploitation qui ont fait croître dans le même temps le nombre d'utilisateurs de micro-ordinateurs et les raisons du succès d'Internet auprès du grand public seront réunies. [5]


D'une époque où le réseau était un projet en lui même (cf. I.5 Enjeux du repérage de l'information), le réseau devient aujourd'hui un outil à utiliser et à intégrer dans d'autres projets. Institutions, entreprises, associations et particuliers veulent être présents sur le réseau : l'augmentation du trafic et du nombre de documents disponibles en ligne pose un certain nombre de problèmes que nous évoquerons plus avant, et notamment celui du catalogage et de l'indexation des ressources électroniques disponibles sur Internet qui est le thème de ce mémoire.



I.2 Principes généraux



    I.2.1 Structure du réseau

"Un réseau, dans l'acception informatique du terme, est un ensemble de matériels informatiques interconnectés.(...) Les réseaux comportent une partie matérielle (ordinateurs, terminaux, cartes d'interfaces réseaux, câbles, etc.), une partie logicielle (applications, programmes de gestion du réseau, systèmes de sécurité, etc.) et une composante humaine, constituée d'une part des techniciens et des gestionnaires chargés de la mise en œuvre du réseau, d'autre part des clients du réseau, c'est-à-dire des utilisateurs bénéficiaires des services offerts par le réseau."(DUFOUR,95)6


La partie matérielle des réseaux se divise en nœuds (ordinateurs, passerelles, routeurs, etc.) et en liens qui connectent ces nœuds entre eux (lignes téléphoniques, câbles, fibres optiques, etc.). L'espace réticulaire qui constitue Internet comporte plusieurs millions de nœuds techniquement très divers (systèmes de toutes marques, type et puissance). Les machines connectées dialoguent donc entre elles en utilisant un protocole de communication [7] commun appelé TCP/IP qui "traduit" en quelque sorte les informations en fonction des différentes "langues" des machines en "discussion".


On n'entrera pas plus avant ici dans la description des différentes couches physiques ou logicielles du réseau. L'idée à retenir étant que chaque machine, client ou serveur compose un nœud et que chaque nœud est relié à tous les autres par des interfaces logicielles et diverses couches matérielles.


Les deux graphiques qui suivent illustrent l'aspect physique d'une partie du réseau. Il s'agit de l'ossature (backbone) pan-European TEN-34 qui relie les universités et centres de recherche nationaux, et d'EuropaNET , son prédécesseur :






Pan-European TEN 34 - backbone
Graphiques trouvés sur le site «An Atlas of Cyberspaces», qui propose une cartographie des fournisseurs d'accès Internet (FAI) et de l'ossature du réseau (site hébergé par le département de géographie de l'University College London (UCL)


EuropaNET - backbone
Des liens vers des sites proposant une cartographie mondiale des backbones dans la partie signets de ce mémoire.



    I.2.2 Les adresses URI


Les URI (Uniform Resource Identifier) sont le moyen de représenter toutes les adresses des ressources (pages, services, images, extraits sonores ou vidéo, etc.) disponibles sur le Web. Pour exemple, le mémoire que vous êtes entrain de lire se trouve sur le réseau à l'adresse : http://www.multimania.com/ddiaz/. Comme nous le verrons dans cette partie du mémoire, les adresses URI font déjà partie du catalogage des documents électroniques et même, bien que dans une moindre mesure, de l'indexation de ces ressources.


Les URN, URC et URL sont des types particuliers d'URI :


    • Les URL (Uniform Resource Locator)

Syntaxe utilisée pour spécifier la localisation physique d'un fichier ou d'une ressource sur Internet. Une URL est donc une description permettant de localiser un document. Il s'agit d'une chaîne de caractères composée de trois parties :


a/ Protocoles d’accès :


http://   

Hypertext Transfer Protocol : protocole de communication utilisé pour les échanges de données entre les clients et les serveurs www

ftp://   

File Transfer Protocol : protocole de transfert de fichiers entre deux machines sur Internet

gopher://   

Protocole aujourd'hui supplanté par le http://, système d'information distribué, l'accès à l'information est structuré selon un réseau de menus multiniveaux

telnet://   

Protocole d'application définissant l'émulation d'un terminal sur Internet

mailto:   

Protocole d'accès d'un e-mail

Le protocole utilisé pour l'accès à un document révèle partie de la nature de ce dernier. Sur un serveur FTP, les ressources sont proposées au téléchargement par exemple. Ainsi, si ces protocoles ne nous apportent pas d'information concernant le contenu du document, ils révèlent la nature, la forme, le format électronique du document disponible en ligne.





b/ L’adresse IP du serveur et le DNS


L’adresse IP est l'adresse identifiant une machine sur le réseau Internet. Elle est composée de quatre octets (soit 32 bits) écrits sous une forme décimale, ce qui donne par exemple 131.224.91.50. L'adresse IP peut être comparée à la notion de cotation que l'on rencontre en bibliothèque ou dans les centres de documentation : elle indique à l'utilisateur sur quelle machine (sur quel rayonnage dans le cas de la bibliothèque) il se trouve.



Le DNS (Domain Name Server) est une méthode d’administration de noms qui explicite par des noms de domaines les adresses IP. C’est la partie de l’adresse qui se situe après le protocole d’accès. Exemple : www.adbs.fr. Chaque domaine est séparé par un point, la lecture se fait de droite à gauche, du plus général au plus particulier : nom.sous-domaine.domaines ; il peut y avoir un nombre quelconque de domaines mais on trouve en général des URLs constitués de deux à cinq domaines.


Le nommage de l'adresse IP permet en principe de savoir le type d’information que l’on va probablement trouver sur les serveurs, ou du moins le type d'éditeur qui propose cette information à la consultation. Quelques extensions finales de DNS parmi les plus évocatrices : .edu s'applique aux serveurs issus du monde de l'éducation, universités et laboratoires de recherche par exemple ; .com est l'extension des serveurs commerciaux (entreprises, sociétés, boutiques en ligne, etc.) ; ces extensions peuvent aussi permettre d'identifier l'origine géographique du seveur (.fr pour la France, .us pour les États-Unis, .es pour l'Espagne, .de por l'Allemagne, etc.). De nombreuses discussions sont menées aujourd'hui pour étendre le nombre de ces extensions afin de mieux distinguer le fournisseur d'information.


Les noms de domaines ne sont pas gratuits. Leur importance est capitale pour les entreprises notamment qui veulent apparaître lors d'une recherche sur leur nom. Nous reviendrons ultérieurement sur ce point dans ce mémoire. Il suffira de retenir ici que le DNS fournit une information sur la nature du serveur qu'il représente et qu'il est aussi important en ce sens que la mention de l'éditeur, de l'auteur ou de la collectivité-auteur qui publie un ouvrage papier.



c/ Hiérarchie et arborescence de l’information dans le serveur


Après le protocole d’accès (ex : http ://), puis l’accès IP traduit par le DNS (ex : www.multimania.com), l’URL donne le chemin d’accès à l’intérieur du serveur.
Exemple : http://www.multimania.com/ddiaz/internet.htm nous indique qu’il y a un répertoire "ddiaz" qui contient la page "internet.htm" que vous êtes entrain de consulter.



    • Les URN (Uniform Resource Number)

L'attribution d'un URN doit garantir aux utilisateurs la possibilité de retrouver un document, même lorsque son adresse physique (URL) a changé. La gestion de ces noms doit être centralisée, un nom générique est donné à une ressource qui permettra de retrouver cette ressource à différentes URL (information présente sur des sites miroirs par exemple) ainsi que les URC (Uniform Resource Caracteristics) qui lui sont propres. Ces ressources uniformes ne sont pas devenues un standard comme les URL évoquées plus haut.


Il est tentant de faire ici le parallèle entre les URN et l'ISBN (International Standard Book Number) qui est le "code international normalisé ISO 2108, datant de 1972, qui permet d'identifier un titre ou une édition d'un livre ou d'un autre type de monographie publié par un éditeur déterminé." [8]



    • Les URC (Uniform Resource Caracteristics)

Elles aussi à l'état de projet, les URN devront permettre de retrouver les caractéristiques ou URC associées au document. Ces caractéristiques pourront être la version, le format, mais également les localisations et les modes d'accès (plusieurs URL possibles pour un même document). L'exploitation des URC permettra donc de choisir la version ou le format d'un document, et d'y accéder grâce à l'URL sélectionnée.



    I.2.3 Structure des documents sur Internet : formats et normes



Si les difficultés inhérentes au repérage de l'information sur le W3 sont nombreuses et importantes, les formats et normes du document électronique vont cependant favoriser le catalogage, l'indexation et par la suite le repérage de ces documents. En ce qui concerne les textes notamment, les documents présents sur le W3 sont de nature fortement structurée, ce qui facilitera comme nous le verrons plus loin dans ce mémoire le travail des moteurs de recherche.


Les documents sur Internet doivent certes correspondre à certaines normes pour circuler sur Internet selon les protocoles en vigueur. Cependant, ces normes sont en constante évolution et plusieurs formats sont possibles. Certains éléments n'ont pas encore trouvé de solution tout à fait satisfaisante à tous égards, c'est le cas des caractères accentués de langues comme le français ou l'espagnol. De plus, ces standards informatiques concernent davantage le contenant que le contenu. Les documents électroniques n'ont évidemment pas atteint le degré de normalisation et de règles d'usage que l'on trouve aujourd'hui dans le monde du livre.


Les normes qui permettent le codage de la structure logique de familles de documents appartiennent à la famille SGML(Standard Generalized Markup Language) , norme internationale ISO 8879, 1986 et norme française NF EN 28879, 1990. Ces normes permettent toutes de créer des documents révisables (qui peuvent être mis à jour). Les documents sont indépendants des plates-formes matérielles et logicielles qui ont servi à les créer. Les documents sont ensuite mis en forme physique et présentés à l'aide de feuilles de style qui interprètent les balises codant la structure dans le document. On peut éventuellement appliquer plusieurs feuilles de style différentes au même document balisé pour en donner des présentations différentes destinées au papier ou à l'écran.


Le format commun à une classe de documents encodés selon SGML est défini dans une DTD (Définition de Type de Document) écrite en langage SGML. Les différents formats de la famille SGML que l'on rencontre aujourd'hui le plus souvent pour la publication électronique sont SGML, HTML et XML.


SGML

L'éditeur de la norme SGML est Charles F. Goldfarb, qui avait travaillé auparavant chez IBM à la conception d'un système intégré de publication de documents juridiques. [9] SGML est utilisé par le monde de l'édition pour normaliser les pratiques de balisage des documents dans les traitements des chaînes d'édition. Il permet de gérer tous les documents en cours de publication dans une base de données en suivant le statut du document dans le circuit de publication : depuis le dépôt du manuscrit par l'auteur jusqu'à la publication en passant par le comité de lecture et les phases d'acceptation et de modification. Il augmente la productivité des chaînes documentaires par la suppression des ressaisies, c'est un outil sophistiqué permettant de mettre en œuvre des contrôles et des commandes macro destinées à minimiser les opérations de saisie dans un environnement de production.

La plupart des grands éditeurs STM (Sciences Techniques et Médecine) qui ont mis en œuvre SGML ont créé leur propre DTD de production. Ces DTD sont toutes proches d'une DTD normalisée ISO 12083 elle-même issue des travaux de l'AAP (Association of American Publishers). Cette DTD permet le balisage générique pour les structures de livre, de publication en série, d'articles de publication en série et des formules de mathématiques.

D'autres DTD ont été développées dans le domaine de la littérature et des sciences humaines pour le balisage des textes littéraires. Il s'agit du Text Encoding Initiative (TEI). La DTD TEI comprend un en-tête pour le document qui permet de lui adjoindre les méta-données dans une forme normalisée contrôlable par les dictionnaires.

Si SGML est un outil puissant de production de structures complexes, il ne peut être utilisé sans visualiseur spécifique pour afficher les documents. Il est donc actuellement difficile de l'utiliser dans un environnement Internet de base.

"SGML, est un langage pour coder les documents, il n'existe donc pas à proprement parler d'application SGML en tant que telle. (...) Un parser SGML est un logiciel qui analyse la conformité d'un document par rapport à la structure qui a été définie. Le parser prévient de toute incompatibilité qui se serait produite. (...) Certains parsers sont dans le domaine public et sont accessibles sur Internet. D'autres sont des produits commerciaux." [9]

Des navigateurs et éditeurs dédiés au langage SGML existent aussi (Magellan, Grif SGML Editor et Amaya du W3C par exemple). "Ces logiciels permettent à l'utilisateur d'associer, pour chaque DTD, une présentation à un type d'élément, le cas échéant en tenant compte du contexte. (...) Les outils de création et d'édition de documents SGML s'appellent des éditeurs structurés. Ils ressemblent à des traitements de texte, mais obligent leurs utilisateurs à respecter la structure des documents telle qu'elle est définie dans une DTD." [9]

HTML

HTML (Hypertext Markup Language) est un format de description qui permet de créer des documents hypertextes portables d'une plate-forme à une autre. Il est utilisé sur les serveurs W3 d'Internet. Les éléments d'HTML, appelés balises ou tags en anglais, sont insérés dans un texte et permettent de décrire les éléments logiques et physiques de celui-ci (par exemple son titre, ses paragraphes, etc.). Les liens hypertextes permettent à un document de renvoyer à une autre partie de ce document, à un autre document ou encore à un autre serveur. Ils peuvent concerner des textes, du son, des images fixes ou animées.

Le langage HTML a été créé en 1989 par Tim Berners-Lee, chercheur au CERN, dans le cadre du projet World Wide Web. En 1992, Dan Connoly a écrit la DTD d'HTML et les spécifications de ce format. En 1993, ces spécifications ont été révisées car elles étaient dépassées et ont donné jour à HTML2 en 1994. On en est aujourd'hui à la quatrième version d'HTML. Deux groupes travaillent à l'évolution de ce standard : le W3C (World Wide Web Consortium) et l'IETF (Internet Engineering Task Force). Les normes produites par l'organisme de normalisation qu'est l'IETF sont appelées RFC (Request For Comment). En ce qui concerne la version 2 d'HTML, la RFC porte le numéro 1866. [10]

HTML ne permet pas des structures complexes et en particulier pas la gestion des formules mathématiques, ces dernières impliquant l'insertion d'images. C'est un outil simple de création et de diffusion sur le Web. On peut aussi créer facilement un document HTML en reformatant des documents créés en SGML ou en format de traitement de texte bureautique (Word, Wordperfect, etc.). Afin de faciliter la recherche de documents sur le réseau, un travail de normalisation associe le W3C, des représentants du monde bibliographique (bibliothèques et bases de données), des éditeurs de publications académiques. Il s'agit de normaliser les éléments de méta-données qui sont requis dans les documents HTML et qui sont codés dans la syntaxe "métadata".

Un autre travail de normalisation est en cours à l'IETF pour l'identification pérenne des documents électroniques présents sur le réseau. Cette initiative est destinée à compléter l'outil de localisation que sont les URLs dont nous disposons actuellement. Elle comprend la définition de l'URN et de l'URC dont nous avons parlé précédemment. Le dispositif en cours d'élaboration prévoit la mise en place sur le réseau de centres d'enregistrement des publications pour l'enregistrement des noms et leur "résolution" en URL permettant d'accéder aux différentes localisations déposées. Les centres de résolution peuvent également offrir des informations sur les documents et sur leurs "caractéristiques", ils pourront se créer sur l'initiative de communautés d'intérêt intellectuel et/ou financier. C'est ainsi que de grands éditeurs commerciaux STM (Silver Platter, Ovid, FirstSearch) ont déjà mis en place le DOI (Digital Object Identifier) destiné à gérer les droits d'utilisation des articles électroniques sur le Web.


XML (Extended Markup Language)

C'est à la fois un SGML allégé et un langage de codage et de balisage plus puissant que le HTML, pour la distribution de documents plus complexes sur le Web. La visualisation de documents Web au format XML par les browsers courants est annoncée. Les documents XML pourront être produits avec des éditeurs XML ou reformatés à partir de documents produits en SGML. Ils peuvent également comme tout document de la famille SGML être créés à l'aide d'un simple traitement de texte en introduisant toutes les balises et en assurant le contrôle de la bonne conformité du balisage avec les règles de XML.

Les caractéristiques intéressantes pour l'accès à l'information sont la possibilité de gérer isolément des portions de documents, le balisage de la structure étant autosuffisant, ainsi que la possibilité de mettre en œuvre des liens auto-descriptifs qui permettent de typer la ou les cibles. Enfin, le codage des caractères retenu dans cette norme est UNICODE [11] (codage sur 16 bits) ce qui est résolument tourné vers l'avenir et donc la conservation et l'accès, mais ne simplifiera pas les premières réalisations.

Du point de vue de la chaîne création/publication, la mise en œuvre de XML est aussi lourde que SGML, mais moins orientée production de masse. En effet, on ne minimise pas le balisage, on n'a pas la possibilité d'alléger la saisie puisque le document est autosuffisant et que toute l'information codant la structure doit être présente dans chaque document. Enfin, la mise en œuvre de différentes fonctionnalités comme le typage des liens demandera un travail additionnel dans le processus de création.


VRML (Virtual Reality Modeling Language)

Tout comme HTML, VRML n'est pas au sens strict un langage de programmation orienté objet, mais plutôt un format de description de scènes en trois dimensions. Le but étant de rendre la navigation sur le Web semblable à une application de la réalité virtuelle et de devenir à terme un langage standard de description universel pour des simulations à plusieurs participants.

VRML manipule des objets élémentaires appelés nœuds ou nodes qui peuvent être une sphère, un polygone, etc. Un fichier VRML va donc contenir les caractéristiques de chacun des objets qui composent une scène en trois dimensions mais c'est le navigateur de l'utilisateur qui va décoder les informations de l'ensemble des différents objets pour recréer une scène. [10]

PGML (Precision Graphics Markup Language)

Le 13 avril 1998, Adobe, associé à IBM, Netscape et Sun, soumettait au W3C les spécifications d'un nouveau format d'images. Ce format définit des images vectorielles et non plus bitmap comme les GIF et Jpeg que l'on trouve aujourd'hui sur les pages Web. Un des multiples avantages des images vectorielles, outre un téléchargement plus rapide, est qu'un texte inséré dans le graphique pourra enfin être indexé (car définit en tant que zone texte dans l'image). [12]

VML (Vector Markup Language)

Un communiqué de presse, en anglais, disponible à l'adresse <http://betty.userland.com/stories/daveWiner/98/05/vml.html> annonce un nouveau format d'image vectorielle proposé au World Wide Web Consortium (W3C) par Autodesk, HP, Macromedia, Microsoft et Visio. Pour rappel, il n'existe pas de format d'images vectorielles reconnues par les moteurs. Les images présentes sur les sites Web sont au format GIF ou Jpeg.


Tous ces formats s'affrontent pour exister et dominer le monde de l'Internet. La lutte entre le PGML et le VML promet d'être commerciale et accrochée si l'on considère les entreprises concernées. Les évolutions dans ce domaine sont rapides et on ne peut guère aujourd'hui que s'appuyer sur ceux qui, déjà implantés, ont une influence en ce qui concerne le sujet de ce mémoire : SGML et surtout HTML (le plus utilisé sur le W3). Les hypothèses pour l'avenir restent plus hasardeuses, quoique le XML semble être le langage promis au plus bel avenir. Mais aucun standard ne peut devenir pérenne sans être devenu auparavant un standard de fait (en effet, tout est là question d'usage, une norme est élaborée et éditée -parfois en ligne-, mais tant que les utilisateurs ne se l'approprient pas, elle ne peut être considérée comme un standard). HTML ne semble pas voué à disparaître dans les prochaines années tant il est employé, mais l'évolution des professionnels vers le XML reste l'hypothèse la plus plausible à moyen terme.


I.3 Services et applications

Internet offre les mêmes services que les réseaux de plus petite taille dont il est composé, il offre ces possibilités à n'importe quel utilisateur, quels que soient la localisation géographique et l'ordinateur qu'utilise ce dernier :

- transfert de fichiers : copier des informations depuis un ordinateur vers un autre en utilisant le réseau comme support de transmission ;
- partage de fichiers : permettre l'utilisation d'un fichier stocké sur une machine distante ;
- messagerie électronique : système de courrier informatisé beaucoup plus rapide et moins coûteux que le courrier postal, les messages électroniques (E-mail pour Electronic Mail, Courriel ou Mél) peuvent en outre contenir des éléments multimédias (sons, images, vidéo) ;
- émulation de terminal ;
- accès à l'information : le couplage à des systèmes d'indexation et de recherche facilite la collecte d'information ;
- impression : le partage d'imprimante en réseau permet d'imprimer un document à distance ;
- exécution de commandes à distance : un logiciel sur la machine du client peut utiliser la capacité de calcul d'une machine connectée au réseau afin de lui faire exécuter des opérations (qu'elle ne peut pas faire elle même faute de puissance ou de l'interface logicielle nécessaire).



I.4 Contexte actuel et potentialités du réseau

Le nombre de pages Web sur la toile est aujourd'hui estimé à quelques 500 millions. On aurait souhaité mesurer la quantité d'information disponible sur internet avec une autre unité de stockage (le Gigaoctet ou le Tetraoctet par exemple) car les "pages Web" sont de taille plus que variable (de quelques dizaines de Kilooctets à plusieurs Mégaoctets), mais il nous a été impossible de trouver ce genre de chiffres sur le réseau ou ailleurs.

S'il offre un certain nombre d’outils : messagerie, transferts de fichiers, etc. (cf. I.3 Services et applications), pour la majorité des utilisateurs du "réseau" l’amalgame est fait entre World Wide Web (souvent traduit en français par "Toile d’Araignée Mondiale") et Internet (alors que W3 n’est qu’un des outils, qu'une partie de l’Internet, celle qui a fait son succès). Cette comparaison avec une toile d’araignée peut s’expliquer ainsi : un site W3 est un ensemble de pages HTML référençant d’autres documents ; ces documents peuvent être sur le même site, mais aussi sur des sites distants. On peut donc imaginer un graphe où chaque site est un nœud et chaque référence entre deux pages une arête. Il est possible de se déplacer dans le Web comme dans un graphe en suivant ces liens et atteindre, n’importe quel autre point, à partir de tout point initial. Cette hypothèse relève en fait de la théorie et ne représente en aucun cas une réalité, certains serveurs pouvant n’être jamais référencés par d’autres.


Vinton G. Cerf a présenté quelques chiffres clés concernant l'internet : 3 millions de noms de domaines, 45 millions de serveurs (par rapport à 820 millions de téléphones dans le monde), les connections téléphoniques (hors mobiles) ont une croissance de 10% par an, les branchements au réseau 100% et 240 pays sont connectés (janvier 98). La Chine a le taux de pénétration Internet le plus bas, la Finlande le plus haut. 75% du trafic sur Internet est généré par le Web, il existe 1,5 million de sites Web et 350 millions de pages Web, 7 500 fournisseurs d'accès à Internet dans le monde (dont 4 500 aux USA). On prévoit entre 300 millions et 1 milliard d'utilisateurs en l'an 2000 et les transactions commerciales entre entreprises sur Internet sont déjà estimées en 1998 à 8 milliards de dollars (327 milliards en 2002). [16]



I.5 Enjeux du repérage et de l'accès à l'information

Les autoroutes de l'information telles que nous les connaissons aujourd'hui sont le résultat d'une volonté politique de faire converger trois grands secteurs industriels -télécommunications, informatique et audiovisuel- afin de résoudre la crise économique. [13] Le développement du réseau et le nombre de personnes qu'il touche et qu'il touchera dans les prochaines années dans le monde rendent le repérage d'une information diffusée capital, tant pour les entreprises que pour les administrations étatiques.

La notion d'IST (Information Scientifique et Technique) qui était apparue à la suite des grands programmes américains est aujourd'hui trop réduite en ce sens qu'elle ne semble s'appliquer qu'aux sciences dures. Un nouveau concept s'y est aujourd'hui substitué, celui d'information spécialisée (IS), sous lequel se regroupe l'information produite par des spécialistes (chercheurs, ingénieurs, techniciens, etc.). Il s'agit de la somme d'informations mobilisées pour faire progresser une science, un programme, une recherche.


L'IS se distingue de l'information médiatique, bien que les frontières ne soient pas toujours très nettes (cf. banques d'informations produites par les agences de presse et qui sont mobilisables pour la recherche scientifique), et de l'information privée des réseaux d'entreprise.

Deux paradigmes d'analyse permettent de considérer l'IS :

  • En tant que produit brut, marchandise ; on l'analyse alors comme toute autre marchandise, même si cette dernière reste quelque peu particulière. Stockée indéfiniment, elle ne se distingue pas de son support (supports variés), elle ne s'use pas lorsqu'on la consomme, elle est reproductible à très faible coût (c'est la production de l'information qui coûte), sa valeur d'usage et son prix sont directement dépendants de sa rareté.

  • Comme ressource énergétique ; la terminologie employée est révélatrice, "gisement" d'information des banques et bases de données, "cartographie" de ces gisements que le chercheur doit s'établir, "extraction" des données pertinentes, "filtrage", "raffinage" ou retraitement des données et "distribution" de ces dernières.

Ces deux paradigmes sont opérationnels et peuvent fonctionner de façon complémentaire. L'information spécialisée est aujourd'hui entrée dans un contexte de services : d'une gestion de stocks, le documentaliste est passé à une gestion des flux d'information à laquelle s'ajoute la notion de valeur ajoutée. Il faut donner la bonne information à la bonne personne au bon moment.


    I.5.1 Enjeux politico-économiques

L'édition et l'accès à ce type d'information est, comme nous allons le voir maintenant, d'une importance considérable, tant pour les industries que pour les administrations étatiques.

La banque de données du CAS (Chemical Abstract Service) :

Elle est devenue un vivier incontournable pour la recherche dans le domaine de la chimie. En 1982, suite à une tension entre la France et les États-Unis (les derniers accusant les premiers de laxisme en matière d'échanges d'informations scientifiques avec les pays de l'Est), l'accès à la base a été refusé aux chercheurs français. C'est alors tout un pan de la recherche française qui s'est retrouvé privé de mémoire et de visibilité, ainsi que les industries pétrolières, de la parfumerie et même les grands laboratoires pharmaceutiques.

Cet épisode a permis de prendre conscience de l'importance d'une politique de recherche nationale, les pays européens coproduisent désormais l'information diffusée sur CAS (ainsi, les français ajoutent les données françaises).

Les banques de données de brevets industriels :

300.000 brevets environ sont déposés chaque année en France et une bonne partie de ces dépôts sont le fait de chercheurs étrangers. Une technique existe de dépôt de brevets tous azimuths dans les pays concurrents afin de bloquer les recherches et les possibilités de dépôt et de créer un écran de fumée masquant la stratégie de l'entreprise (sur 100 brevets déposés, sur lequel travaille-t-on vraiment ?).

Elles sont d'un accès très coûteux (environ 1,5 KF/heure) et on est obligé de les consulter avant de déposer un nouveau brevet : les sommes engagées dans ces recherches, qui sont récupérées par le producteur de la banque de données et par celui qui a déposé le brevet consulté, ne seront pas engagées dans des travaux de recherche et de développement...
Remarque : quand Sony veut connaître les brevets d'Hitachi, il n'aura pas besoin de consulter ces banques de données, un organisme japonais, le MITI, centralise ces données et les fournit aux entreprises nippones.

Ces deux exemples liés à l'accès à l'information illustrent l'importance du repérage de l'information. L'enjeu économique et l'enjeu politique sont donc bien intimement liés. Celui qui va maîtriser le repérage de l'information en disposera plus tôt (ou sera le seul à en disposer), celui qui décidera de la façon dont l'information doit être classée sera le mieux armé pour la retrouver et proposera des rêgles qui l'avantagent.


    I.5.2 Enjeux socioculturels

Des résultats intermédiaires d'une étude réalisée conjointement par l'Agence de la Francophonie (ACCT), l'Union Latine et Funredes ont été publiés dans le cadre d'une étude sur la place des langues latines sur Internet. Cette étude reprend le principe de la méthodologie initiale de Funredes (comptage par les moteurs de recherche d'un échantillon représentatif de mots) mais elle est exceptionelle car une méthodologie linguistique qui garantit la qualité des résultats a été mise au point (puisque pour arriver à l'échantillon de 50 mots qui a servi à l'étude, plusieurs centaines de termes ont été analysés et confrontés aux critères d'exclusion déterminés par des spécialistes) et que l'étude a porté également sur l'espace Usenet (groupes de nouvelles).

La page présentant la synthèse des résultats nous permet de constater que, par rapport à l'anglais, le français occupe 3,8% de l'espace réticulaire mondial alors qu'il n'occupe que 1,1% de l'espace Usenet. [14]

Selon Martha Stone, de ZDNN, bien qu'à peine 6% des habitants du globe soient anglophones de naissance, 80% de toutes les pages Web actuelles demeurent rédigées dans cette langue (autour de 75% selon le Funredes). Toutefois, cette hégémonie de la langue de Shakespeare sur Internet commence à faire l'objet de sérieux assauts. C'est qu'environ 55,7 millions d'internautes -sur un total estimé à 130 millions- n'ont pas l'anglais comme langue maternelle ; en outre, c'est également chez les non-anglophones que l'on retrouve les plus fortes proportions de nouveaux adeptes du réseau : Espagnols (22,4%), Allemands (14%), Japonais (12,3%), Français (10%). Conséquence logique de ces nouvelles réalités, on estime que le nombre de nouveaux sites créés en anglais sera dorénavant moindre que celui de l'ensemble des nouveaux sites en d'autres langues, et ce, dès cette année. C'est dire que l'industrie de la traduction automatique sur le Web est définitivement promise à un riche avenir, en dépit de ses lacunes actuelles. Heureusement que, s'il faut en croire les spécialistes, les choses évoluent en ce domaine (comme dans bien d'autres) selon la Loi de Moore (s'appliquant à la vitesse des processeurs des ordinateurs), qui veut que la qualité des résultats obtenus double environ tous les 18 mois.

Si les langues latines ne tentent pas, à défaut de s'imposer, du moins de s'affirmer sur le réseau, on se retrouverait devant le schéma de la banque de données SCI (Science Citation Index). Produite par l'ISI et apparue au début des années 80, c'est une banque de données d'analyse des citations et co-citations de la littérature scientifique mondiale. Devenue une référence, elle impose aux chercheurs du monde entier de publier leurs articles en anglais pour être reconnus.

Si les acteurs majeurs de l'Internet en France se doivent de publier une version en anglais de leur site s'ils veulent augmenter leur lectorat potenciel, la rédaction d'une version française et la multiplication des pages francophones sur le réseau doit permettre de pousser les anglophones à faire de même.



    I.5.3 Problématique de l'accès à l'information

Il devient dès lors capital pour les gouvernements, les entreprises et même les artisans d'être présents et bien visibles sur Internet. De prouver qu'ils sont capables de suivre les évolutions technologiques qu'exige le passage à une communication et une stratégie réticulaire. Les problèmes de non-visibilité, qui découlent directement des problèmes de repérage de l'information, deviennent cruciaux pour tous ceux qui misent sur leur présence sur le réseau. Des logiciels sont apparus qui calculent la position d'un site à l'interrogation d'un moteur de recherche (Cf. Webposition), prouvant l'importance du référencement dans la stratégie des éditeurs de pages HTML.

Cette problématique est en grande partie due au manque d’organisation initial de la hiérarchie du Web. En effet, même si une information est présente sur un site, sa consultation n’est pas toujours évidente, voire impossible, si l’adresse du serveur contenant ces données n’est pas connue au départ. A ce problème d'ordre structurel s'ajoute une série de réalités qui viennent rendre plus ardues encore les tâches de repérage de l'information :

    a/ L'énorme croissance exponentielle des informations disponibles sur le réseau et l'absence de standards en matière de classification, catalogage ou indexation de ces informations les rendent difficiles d'accès voire inaccessibles.

    b/ La grande variété des contenus des pages Web : actuellement, le nombre de serveurs ayant considérablement augmenté, les sujets se sont considérablement diversifiés, il est possible d’accéder à n’importe quel thème voulu et bien que l'anglais reste majoritairement employé, plusieurs langues sont présentes sur le réseau. Des banques de données, des revues électroniques, des galeries marchandes, des pages personnelles, des images éparses, des fichiers, etc. s'y côtoient.

    c/ Unités d'information : sont présents sur Internet des textes (fichiers ASCII, format SGML, format HTML, formats de traitement de textes, RTF, PDF, Postcript, etc.), des images (fichiers GIF, Jpeg, TIFF, etc.), des sons (fichiers WAVE, MIDI, etc.) mais aussi d'autres types d'informations, comme des fichiers compressés (format ZIP, TAR, etc.) ou des fichiers exécutables (EXE). Tous ces formats ne sont pas aujourd'hui reconnus et indexés par les outils de recherche d'information.

    d/ La page a-t-elle été mise à jour ? Existe-t-elle seulement encore ? Il faut de plus pouvoir juger de la validité, de la pertinence, de la qualité des informations recueillies. Il est donc nécessaire de pouvoir identifier la source du document, son auteur ou créateur, sa date de publication.

    e/ Rédaction des pages par des non-spécialistes et difficulté d'imposer des règles face à des utilisateurs nombreux et divers.



Conclusion

Si le Web a connu une telle réussite, c’est très certainement dû à ses incroyables possibilités. Une source d’informations peut être transmise à n’importe quelle personne connectée dans le monde entier. Ces informations peuvent s’étendre à de nombreux domaines et beaucoup ont compris les potentialités de l’outil. En contrepartie, victime de ce succès, l’accroissement de la quantité d’informations véhiculée par le Web a donc vite posé certains problèmes. La plus grosse difficulté est devenu l’accès même à ces informations. L’énorme croissance des informations disponibles sur le réseau, sans organisation ni contrôle d’aucune sorte ont rendu bien difficile l'accès à une information précise. On a souvent parlé d’une anarchie du Web. Aussi a-t-il été important de tenter de résoudre ce problème afin de rendre l'utilisation du réseau aussi conviviale que pratique. L’idée d’indexer le Web est apparue comme la meilleure alternative pour accéder aux informations qu’il contient. Cette solution est de parcourir les différents sites et de ranger ensuite les informations collectées dans des banques de données. [15] Devant les quantités d'informations à traiter, automatiser ce travail s’est avéré indispensable. Et le développement des premiers moteurs de recherche s’est fait pour répondre à cette demande, des outils se sont progressivement mis en place. C'est sur ces outils que se portera notre attention dans la deuxième partie de ce mémoire.



[1] THERY, Gérard.- Les autoroutes de l'information. Rapport au Premier Ministre.- Paris : La Documentation Française, 1994.- p.24

[2] KROL, Ed.- Le Monde Internet.- Paris : Editions O'Reilly International Thomson, 1995

[3] Octobre 1991 : premiers accès au serveur W3 du CERN à partir de l'Internet en utilisant des browsers en mode texte

[4] Estimations NUA Internet Consultancy and Developper de la population des internautes en mars 1998. Dans le monde, on compterait 113 millions d'internautes (dont 62 aux Etats-Unis, 20 en Europe et 14 en Asie). En France, NUA nous estime à 400 000, soit 0,7% de la population du pays, tandis qu'en Finlande, il sont 1,04 million, soit plus de 20% de la population ! Détails et mises à jour à l'adresse : http://www.nua.ie/surveys/how_many_online/index.html

[5] Un document au format PDF d'Adobe intitulé Web site story proposé dans le cahier multimédia de l'édition en ligne du journal Libération qui résume les grandes étapes de l'histoire d'Internet : sur ce site cliquer ici, le cahier multimédia sur le site du journal Libération cliquer ici (de nouveaux fichiers sur les technologies multimédia chaque semaine)

[6] DUFOUR, Alain.- Internet.- Paris : PUF, 1995.- (Que Sais-je ?; n°3073).- p.4

[7] "Un protocole de communication est une convention qui spécifie des règles d'échange d'informations entre deux machines." (in DUFOUR, Alain.- Internet.- Paris : PUF, 1995.-(Que Sais-je ?, n°3073).-p.12)

[8] ROLE, François.- Dictionnaire encyclopédique de l'information et de la documentation.- Paris : Nathan, 1997, p.366

[9] BIEZUNSKI, Michel.- Dictionnaire encyclopédique de l'information et de la documentation.- Paris : Nathan, 1997, pp.529-531

[10] BEDEL, Valérie.- Les langages de description des documents pour les serveurs W3 : HTML, JAVA, VRML. Utilisation et comparaison.- Rapport de recherche bibliographique, DESS en INFORMATIQUE Documentaire.- ENSSIB/Université Claude Bernard Lyon, 1996

[11] Fondé en 1991, l'Unicode Consortium développe un système d'encodage universel sur 16 bits. Le but est de proposer un encodage de type ASCII (sur 8 bits seulement), mais qui prendrait en compte toutes les langues utilisées sur la planète. Sur le site officiel <http://www.unicode.org/>, des informations et des ressources pour les programmeurs, développeurs ou autres impliqués dans le travail de globalisation informatique. Le standard Unicode est une norme de codage : ISO/IEC 10646-1,1993. Devant le développement du W3, un codage universel du langage est devenu une nécessité pour que les machines des différentes communautés linguistiques puissent communiquer entre elles. La mission de l'organisation est de développer, promouvoir, aider à l'implémentation, maintenir et faire évoluer le standard Unicode.

[12] Le texte de la proposition et les commentaires du W3C en anglais :

http://www.w3.org/Submission/1998/06
http://www.w3.org/Submission/1998/06/Comment.html

[13] GALLEZOT, Gabriel.- Analyse de l'apport des nouveaux services offerts par les Autoroutes de l'information, appliquée à la production et à la diffusion de l'Information Scientifique et Technique Institutionnelle (ISTI) de l'Institut National de la Recherche Agronomique (INRA). Mémoire de DEA : Nouvelles Technologies de l'Information (NTI) appliquées à la communication et à la formation : Université de Paris 2 : 1995.- p.5-8





[14] Agence de la Francophonie : http://www.francophonie.org/

Union Latine : http://www.unilat.org/fr/findex.asp
Funredes : http://www.funredes.org/funredes/html/francais/
Échantillon de 50 mots : http://www.funredes.org/langues/heterographe.html
Critères d'exclusion : http://www.funredes.org/langues/cadremet.html
Synthèse des résultats : http://www.funredes.org/langues/synthese.html

[15] MARX, Bernard.- Dictionnaire encyclopédique de l'information et de la documentation.- Paris : Nathan, 1997, pp.59-63

[16] Dans une intervention lors de la première séance plénière d'INET'98.


 

Pour naviguer dans les différentes parties de ce mémoire :


© DIAZ Diego-Angel 1998