Research, Services, and Tools for Accessing Web Archives Series: Full-Text Indexing of Very Large Collections
en français:
Cycle de rendez-vous francophones en ligne d’IIPC “Recherche, services et outils d’accès aux archives web”
Ce premier cycle de quatre rendez-vous thématiques, dédiée aux outils pour l’accès aux collections et la recherche, se tiendra en ligne et exclusivement en français. Il a pour objectif:
- de partager de l’information sur les projets en cours concernant l’accès et la recherche dans les institutions francophones d’IIPC,
- de présenter des cas d’usages, des outils et des services utilisés par les différentes institutions,
- de discuter des questions juridiques, notamment dans les cadre des réglementations européennes.
NB: les rendez-vous sont en français mais sont ouverts à toute personne intéressée. Les fonctions de transcription et traduction automatisées peuvent être utilisées pour faciliter la compréhension des échanges.
Format:
Les rendez-vous durent entre 1h00 et 1h30 et comprennent une ou plusieurs présentations en lien avec le sujet suivies d’un temps de questions réponses et d’échanges.
In English:
This thematic regional online series, “Research, Services, and Tools to Access Web Archives,” will consist of 4 sessions, all conducted in French, and target mainly Luxembourg, Belgium, Switzerland, Canada and France. Its purpose is to:
- Share information about current projects regarding research and access to collections at French-speaking IIPC member institutions
- Present use cases, new tools, and services
- Discuss local legal possibilities with respect to EU regulations
Format:
Each event will be 1 to 1.30 hours including one or two thematic presentations followed by a Q&A and knowledge exchange.
Please note that even though the events will be held in French, anyone can participate as automated captions can be used for other languages. The translations may not be perfect but they should help understand the main points of the presentations.
Ce rendez-vous | This Session:
Rendez-vous n°2: le lundi 19 mai (15h00-16h15) | 19 May (3-4.15 pm CET)
Indexation plein texte de collections massives | Full-text Indexing of Very Large Collections (Use Case: BnL)
en français:
Présentation de László Tóth (Ingénieur logiciel Archive du Web, Bibliothèque nationale du Luxembourg).
Au cours de l’année 2024, la Bibliothèque Nationale du Luxembourg a modernisé son portail d’accès à ses archives du web. Ce processus était composé de plusieurs étapes : l’investissement dans du nouveau matériel informatique, la mise en place d’une infrastructure technique, l’indexation plein texte d’environ 450 To de fichiers WARC et finalement la mise en place de SolrWayback, servant de point d’accès aux archives pour les utilisateurs. Cette présentation aura comme objectif de détailler ces différentes étapes et de partager les connaissances techniques apprises durant le processus.
In english:
Presented by László Tóth (National Library of Luxembourg).
During the course of 2024, the National Library of Luxembourg modernized their access portal to their web archives. This involved investing in new hardware, setting up a technical infrastructure, full-text indexing of approximately 450 TB WARC files and hosting SolrWayback to serve as entry point for users who wish to search within the archives. This presentation will explain, in technical detail, the aforementioned process.
Prochains rendez-vous | Next Session:
Rendez-vous n°3: le lundi 15 septembre (15h00-16h30) | 15 September (3-4.30 pm CET)
Accès, utilisation et extraction des (méta)donnée issues des archives du web: enjeux techniques et juridiques | Accessing and Using Web Archives Data and Metadata: Technical and Legal Aspects
Rendez-vous n°4: en novembre, date à confirmer | November, to be scheduled
Interfaces et fonctionnalités d’accès aux collections d’archives web: l’exemple d’e-Helvetica et de Belgica Web Project | Giving Access to Collections: Platforms and Functionalities (Use Cases: e-Helvetica at Swiss National Library and the BelgicaWeb Project)