vendredi 5 avril 2002
 Sciences
  
Cliquez ici !
 Rechercher un article       Créez gratuitement ou gérez votre espace personnel,
votre météo et vos newsletters.

  ACTUALITES
 à la une
 international
 europe
 france
 société
 régions
 carnet
 horizons
 analyses & forums
 entreprises
 communication
 aujourd'hui
 météo
 sports
 sciences
 culture

 ELYSEE 2002
 (avec Tiscali)


 version texte

  CHAINES
 éducation
 examens 2002
 finances
 forums
 interactif
 musexpo
 mots croisés / jeux

  ANNONCES
 emploi
 immobilier

  SERVICES
 newsletters
 espace personnel
 aide et services
 qui sommes-nous ?

  LE QUOTIDIEN

 édition électronique
 éditions nomades
 archives
 abonnements
* LE MONDE | 05.04.02 | 13h08
Le dépôt légal du Web, terrain de compétition à la française

Les élections 2002 feront l'objet d'une première. Tous les sites - 400 environ - faisant allusion à ces échéances électorales sont, à intervalles réguliers, "aspirés" et stockés pour la postérité par la Bibliothèque nationale de France (BNF), engagée dans un programme expérimental de dépôt légal du Web.

La future loi sur la société de l'information (LSI), dont le projet a été déposé à l'Assemblée nationale en juin 2001, prévoit en effet d'élargir au Web le dépôt légal, créé en 1537 par François I er et actuellement régi par une loi de 1992.
   
Article au format texte pour impression Envoyer par email cet article à un ami
 
 Sur le même sujet
Internet cherche à se préserver de l'amnésie
* LE MONDE | 05.04.02 | 10h04
Avec les logiciels Mira, Microsoft fait la promotion de l'ordinateur dans un fauteuil
* LE MONDE | 22.03.02 | 12h06
IPv6, le nouveau protocole d'Internet
* LE MONDE | 22.03.02 | 11h40
La "Grille", avenir lointain de la Toile
* LE MONDE | 19.03.02 | 12h22
 
Nul ne sait si la LSI, non encore adoptée, sera reprise dans les mêmes termes lors de la prochaine législature. Mais la BNF, comme l'INA, deux des organismes qui gèrent le dépôt légal, s'apprêtent à répondre au défi posé. Toutes deux semblent cependant jouer leur propre partition, même si des structures de coordination ont été prévues.

UN MILLIARD DE PAGES

La BNF s'est rapprochée de l'Institut national pour la recherche en informatique et automatique (Inria) et de la start-up Xylème, qui en est issue. Xylème dispose en effet de nombreux outils pour sonder le Web. Elle a procédé à une évaluation de sa partie française à partir d'un échantillon d'un milliard de pages. Les sites ".fr" représentent 1 à 2 % de la Toile, mais les "crawlers" (automates) ont constaté que 40 % d'entre eux étaient inaccessibles de façon automatique. Soit parce que les robots butent sur des barrières (robot.txt), soit parce qu'il faut remplir des formulaires, soit enfin parce qu'ils sont désorientés par des langages (java scripts) engendrant des adresses dynamiques.

Le tout-automatique est donc exclu. Pas seulement pour des raisons techniques. "Le Web est une grande poubelle à ciel ouvert : archiver une poubelle n'a pas très grand sens, commente Serge Abiteboule, directeur de recherche à l'Inria et cofondateur de Xylème. Il faut savoir détecter l'importance de ce que l'on retient, mais aussi être capable d'indexer le contenu." Après avoir étudié les expériences étrangères, la BNF préconise une double approche.

Une collecte automatisée, proche de celle réalisée par les moteurs de recherche, qui hiérarchisent les sites en fonction du nombre de liens qui pointent vers eux. Et une collecte individualisée, "tournée vers les sites de qualité inaccessibles aux robots", précise Julien Masanès, conservateur à la BNF. Une trentaine d'entre eux ont déjà été "approchés", pour étudier la meilleure façon de transférer leurs contenus. En juin, la BNF prévoit de "crawler" l'ensemble du web en ".fr", soit 148 000 sites.

L'INA fait pour sa part valoir son expertise dans l'archivage de médias de flux, télévision et radio, dont Internet se rapproche de plus en plus. Mais aussi son expérience face à l'évolution, toujours plus rapide, des technologies. "Aspirer le Web n'est pas le plus difficile, avance Jean-Michel Rodes, directeur de l'Inathèque. Mais renormaliser les contenus pour pouvoir les lire dans cinquante ans est plus délicat."

L'INA a lancé un partenariat avec une équipe de l'Ecole normale supérieure (ENS), dirigée par le physicien Dominique Pignon. Elle aussi a entrepris de "crawler" tout ce qui concerne les élections. Les questions en suspens sont identiques. "Les sites sont de plus en plus dynamiques, constate Dominique Pignon. A-t-on affaire à une ou dix éditions ? Doit-on prendre des instantanés, ou faut-il rapatrier directement la base de données qui les génère ?" Pour le chercheur, l'enjeu n'est pas tant "l'accumulation que la façon dont on pourra utiliser ces données". Reste à définir les relations avec les fournisseurs de contenu et d'accès dont la collaboration est indispensable.

Le dépôt légal ne deviendra obligatoire que trois ans après la promulgation de la LSI. La BNF et l'INA ont donc le temps de peaufiner leur stratégie. Mais les deux institutions sont persuadées qu'il faut commencer à stocker au plus vite, car des pans entiers sombrent chaque jour dans l'oubli.

H. M.

* ARTICLE PARU DANS L'EDITION DU 06.04.02

Articles recommandés
Recommandez la lecture de cet article aux internautes du monde.fr
    


Publicité


Droits de reproduction et de diffusion réservés © Le Monde 2002
Usage strictement personnel. L'utilisateur du site reconnaît avoir pris connaissance de la licence de droits d'usage, en accepter et en respecter les dispositions.
Politique de confidentialité du site.
Besoin d'aide ? faq.lemonde.fr