18 février 2025 | tiré du Courrier international | Photo : Dessin de Martirena, Cuba.
https://www.courrierinternational.com/article/etats-unis-contre-la-montre-pour-sauver-les-donnees-scientifiques-des-sites-federaux-americains_227586
Au cours des trois dernières semaines, des milliers de pages web gouvernementales concernant la santé publique, la justice environnementale et la recherche scientifique sont devenues inaccessibles.
Ce blocage massif s’inscrit dans la volonté du nouveau gouvernement de retirer toute information relative à la diversité et à l’“idéologie du genre” et de surveiller les pratiques de diverses agences fédérales.
Lire aussi : États-Unis. Pourquoi Elon Musk veut la peau de l’USAID, l’agence américaine pour le développement
Le site de l’Usaid [l’Agence des États-Unis pour le développement international] est désormais fermé, ainsi que d’autres qui lui sont liés, par exemple Childreninadversity.gov.. Il en va de même pour des milliers de pages du Bureau du recensement, des Centres de contrôle et prévention des maladies et du Bureau des programmes relatifs à la justice.
Une situation inédite qui pousse à l’action
“On n’a jamais rien vu de pareil, dit David Kaye, professeur de droit à l’université de Californie à Irvine et ancien rapporteur spécial des Nations unies pour la liberté d’opinion et d’expression. Personne ne sait ce qu’il se passe exactement. Ce qu’on voit, c’est que des sites gouvernementaux et des bases de données d’intérêt général essentielles sont inaccessibles. L’intégralité du site de l’Usaid a disparu.”
Mais pendant que l’Internet gouvernemental s’éteint, plusieurs organisations s’efforcent d’archiver documents et informations avant qu’ils ne disparaissent pour de bon. Elles espèrent garder une trace des données perdues pour que les scientifiques et les historiens puissent encore s’en servir à l’avenir.
Lire aussi : Opinion. À Washington, Elon Musk et ses sbires du Doge démolissent l’État fédéral
Si l’archivage est généralement considéré comme apolitique, les récentes actions du gouvernement ont poussé certains membres de la communauté de la conservation à réagir. Professeure émérite d’information à l’université du Michigan, Margaret Hedstrom explique :
“Je considère les actes du gouvernement actuel comme une attaque contre toute l’entreprise scientifique.”
Diverses organisations s’efforcent de sauver ce qui peut l’être. L’un des plus grands projets en ce sens est End of Term Web Archive (EoT Archive), une coalition non partisane qui sauvegarde tous les documents gouvernementaux à la fin de chaque mandat présidentiel. Les particuliers peuvent proposer des sites ou des jeux de données à conserver. “Tout ce que nous pouvons faire, c’est collecter ce qui a été publié, l’archiver et faire en sorte que ce soit accessible au public à l’avenir”, indique James Jacobs, bibliothécaire responsable de l’information du gouvernement américain à l’université Stanford et l’un des piliers d’EoT Archive.
Des données essentielles sur le climat
D’autres organisations adoptent un angle plus spécifique. L’Open Environmental Data Project(OEDP), par exemple, s’est spécialisé dans les données sur la climatologie et la justice environnementale. “On essaie de repérer ce qui a été retiré, relate Katie Hoeberling, une des dirigeantes de l’OEDP. Je ne peux pas dire avec certitude combien exactement de ce qui était accessible l’est toujours, mais on constate que le retrait s’accélère depuis deux ou trois semaines.”
Lire aussi : Environnement. Donald Trump, une catastrophe annoncée pour le climat, s’inquiète la presse internationale
En plus de repérer ce qui est retiré, l’OEDP effectue des sauvegardes des données pertinentes. Il avait commencé en novembre, à la fin du mandat de Joe Biden, mais il met les bouchées doubles depuis ces dernières semaines. “Les choses étaient beaucoup plus calmes avant l’investiture, constate Cathy Richards, une spécialiste de la technologie de l’organisation. Quand la première plateforme a fermé, le deuxième jour du nouveau gouvernement, tout le monde s’est dit : ‘Oh non ! Il faut qu’on continue à travailler sur cette liste de jeux de données.’”
Lire aussi : États-Unis. La discrète révolte des salariés de la tech contre le virage trumpiste de leurs patrons
Il s’agit d’un travail essentiel, parce que le gouvernement des États-Unis détient des informations internationales et nationales sur le climat d’une valeur inestimable. Pour Lauren Kurz, la directrice exécutive du Climate Science Legal Defense Fund, “ces sites contiennent des informations irremplaçables sur le climat. Si on les bidouille ou si on les supprime, on perd définitivement des informations essentielles. C’est absolument tragique.”
Comme l’OEDP, la Catalyst Cooperative s’efforce de stocker et de rendre accessibles aux chercheurs les données relatives au climat et à l’énergie. Ces deux organisations font par ailleurs partie de Public Environmental Data Partners, un collectif d’organisations qui se consacrent à la conservation des données environnementales fédérales. “Nous avons essayé d’identifier les ensembles de données dont nous savons que nos communautés se servent pour prendre des décisions sur la source d’électricité à privilégier ou la résilience en matière d’infrastructures”, indique Christina Gosnell, cofondatrice et présidente de Catalyst.
La récupération de données, un travail “extraordinairement difficile”
La tâche est parfois difficile ; il n’existe pas de moyen simple pour archiver toutes les données du gouvernement américain. “Les nombreux organismes et ministères fédéraux gèrent la conservation et l’archivage des données de façon très différente”, poursuit-elle. Et personne ne dispose d’une liste complète de tous les sites gouvernementaux existants. Ce mélange de données oblige, en plus du travail des robots d’indexation, qui font un état des lieux des sites et des documents, à extraire les données manuellement.
Lire aussi : Médias. Les aventuriers du Web perdu
En outre, les jeux de données se dissimulent parfois derrière une adresse de connexion ou un captcha pour empêcher une récupération automatisée. Et il arrive que les scrapers [les robots de récupération] passent à côté d’éléments clés. Les liens vers d’autres informations, par exemple, ne sont pas toujours récupérés automatiquement. Ou alors la récupération ne fonctionne pas à cause de la structure du site. Pour garantir que les informations sont correctement collectées, un être humain doit vérifier le travail du robot ou collecter les données à la main.
Reste qu’on se demande si le scraping [la récupération] de données sera suffisant. Il n’est en effet pas simple de restaurer un site et un ensemble complexe de données. “Il devient extraordinairement difficile et coûteux d’essayer de sauver et de récupérer les données, confie Margaret Hedstrom. C’est comme si on vidait un corps de son sang et qu’on attendait de lui qu’il continue à fonctionner. Il est parfois impossible de réparer et de récupérer quand on a besoin de lire les données en continu.” Christina Gosnell ajoute :
“Tout ce travail d’archivage n’est qu’un pansement provisoire.”
“Si les ensembles de données sont supprimés et ne sont plus mis à jour, ceux que nous avons archivés deviendront obsolètes et ne permettront plus de servir de base à des décisions.”
Lire aussi : Réseaux sociaux. Pourquoi tant de scientifiques migrent de X vers Bluesky
Cela pourrait avoir des effets durables. “On ne verra les conséquences de tout ça que dans dix ans, quand on remarquera qu’il y a un trou de quatre ans dans les informations”, s’inquiète James Jacobs.
Relier le présent au passé
Il est très important de connaître notre passé, soulignent les archivistes numériques. “On peut tous songer aux photos de famille qui nous ont été transmises et à l’importance de ces différents documents, rappelle Trevor Owens, responsable de la recherche à l’Institut américain de physique et ancien directeur des services numériques de la bibliothèque du Congrès. Cette chaîne de connexion avec le passé est fondamentale.”
Lire aussi : Dans nos archives. Y a-t-il quelqu’un pour sauver nos souvenirs numériques ?
“C’est notre bibliothèque, c’est notre histoire, déclare Cathy Richards. Ces informations sont financées par les contribuables ; il ne faut pas que ces connaissances disparaissent alors qu’on peut les stocker, éventuellement en faire quelque chose et continuer à en tirer des enseignements.”
Scott J Mulligan
Un message, un commentaire ?