Web Archiving in France

Image

L’archivage du web en France

Cadre juridique

Le dépôt légal, institué au XVIe siècle, a pour objectif de conserver la mémoire de toute la production éditoriale française. Il s’est constamment adapté à l’évolution des supports et permet la constitution d’une collection patrimoniale unique en son genre et irremplaçable.

Le dépôt légal du web a été instauré par la loi relative au droit d’auteur et aux droits voisins dans la société de l’information de 2006 et le décret d’application de 2011 qui donne pour mission à la Bibliothèque nationale de France et à l’Institut national de l’audiovisuel de collecter, conserver, signaler et communiquer les sites web du domaine français.

Web Archiving in France

Legal Framework

Legal deposit, instituted in the 16th century, aims to preserve the memory of all French publishing production. It has constantly adapted to the evolution of formats and media, and has enabled the creation of a unique and irreplaceable heritage collection.

Web legal deposit was established by the 2006 law on copyright and related rights in the information society, and its 2011 implementing decree, which mandates the Bibliothèque nationale de France and the Institut national de l'audiovisuel to collect, preserve, describe, and provide access to websites in the French internet domain.

Les collections du dépôt légal du web de la BnF

La collecte des sites web ne prétend pas à l’exhaustivité mais repose sur un principe de représentativité. La BnF conjugue à cet effet deux modes de collecte complémentaires : une collecte large lancée une fois par an sur un échantillon représentatif du web français (5,7 millions de sites en 2023) et des collectes ciblées plus régulières et plus profondes de sites (environ 70 000) ayant fait l’objet d’une sélection par des bibliothécaires et des partenaires.

The BnF Web Legal Deposit Collections

The harvest of French websites does not claim to be exhaustive, but is based on a principle of representativeness. To this end, BnF combines two complementary approaches: a large-scale domain crawl launched once a year on a representative sample of the French web (5.7 million sites in 2023), and more regular, in-depth focused crawls on websites (around 70,000) selected by librarians and partners.

General view of the François-Mitterand site, 2015 ©Jean-Christophe Ballot / BnF

Le réseau des sélectionneurs

La BnF dispose d’un réseau interne à la bibliothèque de plus de 100 correspondants qui sélectionnent des sites dans le prolongement des collections imprimées de leurs départements (sur la littérature et l’art, les sciences et techniques ou encore les arts du spectacle par exemple) mais également sur des thématiques transverses (intelligence artificielle, enjeux environnementaux, etc.) ou encore des médias spécifiques (les plateformes de vidéos, les podcasts, les réseaux sociaux…).

La BnF s’appuie aussi sur un réseau de 26 bibliothèques en région et outre-mer pour repérer, lors des élections, des sites de campagne sur leur territoire ou bien sélectionner des sites représentatifs de la vie économique, sociale et culturelle de leur région.

Grâce à ces deux réseaux de sélectionneurs, les collections du dépôt légal du web couvrent un très large spectre de champs disciplinaires et de thématiques sur une période allant de 1996 à aujourd’hui, grâce à l’acquisition rétrospective auprès d’Internet Archive de sites français archivés de 1996 à 2005.

The Network of Contributors

BnF has an in-house network of more than 100 contributors who select sites as an extension of their departments' print collections (on literature and art, science and technology or the performing arts, for example), but also on cross-cutting themes (artificial intelligence, environmental issues, etc.) or specific media (video platforms, podcasts, social networks, etc.).

BnF can also call on a network of 26 partner libraries in regions and overseas territories to identify campaign sites in their region during elections, or to select sites representative of the economic, social and cultural life of their region.

These two networks of contributors enable the web legal deposit collections to cover a very broad spectrum of disciplinary fields and themes over a period extending from 1996 to the present day, thanks to the retrospective acquisition from the Internet Archive of French websites archived from 1996 to 2005.

BnF Web Archiving Team

Outils et applications

La BnF met à disposition de son réseau de correspondants un outil de sélection collaborative, BnF Collecte du web (BCweb). Elle utilise et contribue au développement de plusieurs applications open source : l’application de pilotage des collectes NetarchiveSuite, le robot crawler de collecte Heritrix OpenWayback et SolrWayback pour la recherche et la navigation dans les archives. Elle participe également aux processus de normalisation du format WARC.

Tools and Applications

BnF provides its network of contributors with a collaborative selection tool, BnF Collecte du web (BCweb). BnF uses and contributes to the development of several open source applications: the NetarchiveSuite collection management application, the Heritrix collection crawler, OpenWayback, and SolrWayback for search and access. It also participates in the WARC format standardization processes.

Accès et valorisation

Soumises au droit d’auteur, les collections du dépôt légal du web ne sont accessibles que dans les salles de la bibliothèque de Recherche de la BnF et dans 21 bibliothèques partenaires en région. Cet accès restreint aux archives du web nous incite à les valoriser via des parcours guidés thématiques et éditorialisés sur des sujets comme l’intelligence artificielle, les journaux personnels, la pandémie de Covid-19 ou encore le web électoral. Les listes des différents sites sélectionnés sont disponibles sur le site API et jeux de données (http://api.bnf.fr) et Data.gouv.fr.

Access and Outreach

Subject to copyright law, web legal deposit collections are only accessible in the BnF Research Library and 21 partner libraries in regions and overseas territories. This restricted access to web archives has prompted us to promote them via thematic and editorialized guided tours on subjects such as artificial intelligence, personal diaries, the Covid-19 pandemic and the electoral web. Lists of selected sites are available on the API and datasets site and Data.gouv.fr.

Recherche

Dans le cadre du BnF DataLab, inauguré en octobre 2021, la BnF met à disposition des chercheurs des outils et services destinés à l’exploration de ses archives du web (collecte de sites web à la demande, aide à la fouille de texte et de données, extraction de données et de métadonnées) et propose plusieurs types d’accompagnement pour les projets de recherche. Parmi les projets accueillis récemment, le projet Bodycapital qui étudie la relation entre l'histoire du corps sain, les politiques corporelles et l'Internet au tournant du XXIe siècle à partir d’archives audiovisuelles et du web archivé ou encore le projet Lifranum sur la littérature francophone numérique font partie des projets récents menés sur les archives du web de la BnF. Le projet ResPaDon a permis de préfigurer un réseau de partenaires dans l’enseignement supérieur pour développer les usages recherche des collections.

Research

As part of the BnF DataLab, inaugurated in October 2021, BnF provides researchers with tools and services to explore its web archives (on-demand website harvesting, text and data mining assistance, data and metadata extraction) and offers several types of support for research projects. Recent projects hosted by BnF include the Bodycapital project, which examines the relationship between the history of the healthy body, body politics and the Internet at the turn of the 21st century, based on audiovisual archives and the archived web, and the Lifranum project on digital French-language literature. The ResPaDon project has enabled us to prefigure a network of partners in higher education to develop research uses for our collections.

Les archives du Web INA

17 000 sites, 43 millions de sons et de vidéos, 3 milliards de tweets.

L’INA procède à des collectes des sites web et des plateformes en lien avec l’audiovisuel français, avec un effort tout particulier sur l’archivage des objets constitutifs de l’audiovisuel du web, les vidéos, sons et podcasts. Une sélection de plus de 17 000 sites du domaine audiovisuel sont ainsi collectés quotidiennement, voire plusieurs fois par jour. Une vingtaine de plateformes de publication ou de diffusion de contenus audiovisuels, telles que YouTube, Twitch, Dailymotion, France.tv, Arte.tv ou encore Odysee, font aussi l’objet de collectes, à partir d’une sélection de chaînes populaires en France ou de leur catalogue complet. Plus de 43 millions de vidéos et de sons ont ainsi été archivés avec leurs métadonnées depuis 2009. Enfin, entre 2014 et 2023, plus de 3 milliards de tweets ont été collectés d’après une sélection de comptes et de hashtags populaires et/ou en lien avec l’audiovisuel en France.

L’INA s’appuie sur les compétences de ses équipes en documentation et leurs connaissances approfondies du domaine audiovisuel afin de mettre en œuvre une veille réactive autour de la nomination des nouveaux objets à collecter sur son périmètre.

The INA Web Archives

17,000 websites, 43 million audio and video recordings, 3 billion tweets.

INA collects websites and platforms linked to the French audiovisual sector, with particular emphasis on archiving the objects constituting the web's audiovisual sector, videos, sounds and podcasts. A selection of more than 17,000 audiovisual sites are collected daily, even several times a day. Close to audiovisual platforms, such as YouTube, Twitch, Dailymotion, France.tv, Arte.tv or Odysee, are also collected, based on a selection of popular channels in France or their complete catalog. More than 43 million videos and sounds have been archived with their metadata since 2009. Finally, between 2014 and 2023, more than 3 billion tweets have been collected based on a selection of popular accounts and hashtags and/or in link with audiovisual sector in France.

INA relies on the skills of its media expert teams and their in-depth knowledge of the audiovisual sector in order to implement extremely responsive monitoring around the definition of new objects to be collected within its scope.

Image
Des outils performants, des usages avancés

L’INA a développé très tôt ses outils de collecte et de consultation en ligne. Deux robots de collecte de sites web sont utilisés aujourd’hui selon la nature des sites : le premier pour les sites ou plateformes les plus simples, l’autre, pour les sites ou plateformes plus complexes, doté d’un navigateur. La collecte des objets audiovisuels du Web est depuis de nombreuses années un enjeu technique fort à l’INA, qui a développé et maintient un robot pour chacune des 20 plateformes numériques collectées aujourd’hui. L’INA travaille également sur l’archivage des flux audiovisuels en direct sur le web, comme les vidéos Twitch ou les chaînes de FastTV.

Les publications textuelles et les métadonnées des objets audiovisuels sont indexées afin de permettre aux usagers la recherche plein texte sur l’intégralité des archives du web de l’INA. Ces archives sont consultables dans les conditions du Dépôt Légal au centre de consultation de l’INA thèque, à Paris, dans les délégations régionales de l’INA et dans une cinquantaine de bibliothèques partenaires.

Le lab de l’INA offre une nouvelle porte d’entrée aux collections du Dépôt Légal. Il s’adresse aux chercheurs en leur proposant un accompagnement dédié avec l’organisation d’ateliers pratiques, de masterclasses et des datasprints. Il offre aussi, grâce au service de la Recherche de l'INA—qui travaille notamment dans le champ de l’intelligence artificielle—des mises à dispositions de jeux de données et la production de données dérivées telles que la transcription automatique de la parole, la reconnaissance de visage et d’objet.

Cette offre de services est solidement articulée avec les activités de développement et d’intégration de technologies de l’INA, qui permettent à l’Institut d’élaborer des outils à forte plus-value académique et sociétale. Par exemple, l’outil open source InaSpeechSegmenter, développé par l’INA, détermine automatiquement le genre des locuteur, homme ou femme, à partir de flux audiovisuels et sonores. Grâce au numérique, le lab offre ainsi aux chercheurs de nouvelles clés d’entrées dans les fonds audiovisuels de l’INA.

Powerful Tools, Advanced Uses

INA developed its collection and online consultation tools very early on. Two websites collection robots are used today depending on the nature of the sites: one for simpler sites or platforms and another, equipped with a browser, for more complex sites or platforms. The collection of audiovisual objects from the Web has been a major technical challenge at INA for many years;  the Institute has developed and maintains a robot for each of the 20 digital platforms collected today. INA is currently working on archiving live audiovisual streams on the web, such as Twitch videos or FastTV channels.

Text publications and metadata of audiovisual objects are indexed to allow users full-text search of the entire INA web archive collections. This content can be accessed under the conditions of Legal Deposit at the INA theque consultation center in Paris, in INA regional delegations and in close to fifty partner libraries.

The INA lab provides a new gateway to Legal Deposit collections. It is aimed at researchers by offering them dedicated support with the organization of practical workshops, master classes and datasprints. It also provides, through INA's Research Service — particularly working in the field of artificial intelligence — access to datasets and the production of derived data such as automatic speech transcription, face and object recognition.

This service offering is solidly linked to INA’s technology development and integration activities, which enable the Institute to develop tools with high academic and societal values. For example, the open source tool InaSpeechSegmenter, developed by INA, automatically determines the gender of speakers, male or female, from audiovisual and sound streams. Thanks to digital technology, The INA lab offers new ways to access INA’s audiovisual collections for researchers.

Image

Additional Resources (via the UNT Digital Library)

Partners