Favoriser l’accessibilité aux archives
Amélie Levasseur-Raymond

Introduction

Après 20 ans dans le monde des communications graphiques en tant qu’infographiste, 2021 marqua pour moi un changement d’orientation en passant de la production de documents vers leur gestion. Après avoir complété le certificat en archivistique, je me suis lancée dans la mineure en humanités numérique, un nouveau programme offert à l’Université de Montréal, en espérant y trouver de nouvelles pistes de réflexion qui pourraient potentiellement s’appliquer au monde archivistique.

Les archives forment notre mémoire collective, mais leur préservation ne doit pas être une finalité, car à quoi beau les conserver si on les garde pour soi. D’où l’importance de leur diffusion, soit de les rendre disponibles et de communiquer leur existence. Avec l’arrivée des technologies qui s’immiscent petit à petit dans la discipline archivistique, on constate que les instruments et outils de recherche traditionnels deviennent désuets et sont progressivement remplacés par les bases de données, comme AtoM, ou encore la recherche plein texte. Ces changements nous amènent aussi de nouvelles réflexions quant aux principes mis en place. Prenons l’exemple de l’organisation par fonds d’archives, où un fonds équivaut à un seul producteur, qui peut rendre les recherches difficiles par une certaine absence de liens avec d’autres fonds. Bien que les centres d’archives se spécialisent généralement sur quelques sujets en particulier, les questions des chercheurs, elles, vont rarement se limiter à un seul fonds d’archives. Voici, pour illustrer la complexité du travail de recherche, quelques exemples de sujets rencontrés que notre chargé de cours, François Cartier, nous avait présentés dans le cadre du cours ARV1055 - Description des archives, à l’automne 2021 (Cartier 2021) :

  • Documenter les techniques de couture inuit et amérindiennes, les outils utilisés et les stratégies mises en œuvre pour lutter contre le froid
  • La tradition de la remise de cadeaux au Canada
  • Recherche sur les premiers occupants du 307, Ontario Est
  • Thèse : collections particulières et collectionneurs à Montréal au 19e siècle

Je ne remets pas en question ici le principe de respect des fonds, mais tente plutôt d’apporter le point de vue du chercheur face à cette organisation des documents. Le plan de classification, avec sa structure hiérarchique, constitue lui aussi un outil rigide et peut rendre le repérage de l’information ardu, même s’il permet de donner un certain contexte grâce au regroupement logique par activité.

De plus, l’avènement de la technologie depuis le milieu du 20e siècle dans toutes les sphères de nos vies nous amène aujourd’hui à une habitude de l’instantanéité, à tout avoir disponible au bout des doigts (et de notre clavier) en seulement quelques clics de souris. On préfère les archives accessibles sur le web pour ne pas avoir à se déplacer et ainsi réduire le temps de recherche et le va-et-vient au centre d’archives. On ne peut le renier, le web est un grand moyen de communication. Nous avons aussi pu l’observer avec la pandémie de COVID-19 qui nous a cloisonnés à la maison. C’est pourquoi les projets de numérisation se multiplient, afin d’augmenter l’accessibilité à notre mémoire collective à tous, peu importe où ils se trouvent sur la planète. Bien que la volonté y soit, le manque de ressources (humaines, matérielles ou budgétaires) fait en sorte que ce sont des projets complexes. On peut d’ailleurs lire dans le Manifeste du pigeon voyageur (Harangozó 2020) que

« une portion significative des photographies historiques qui ont déjà été numérisées ne sont pas disponibles gratuitement au public – malgré qu’elles soient dans le domaine public. »

L’accent est mis dans ce passage sur un accès gratuit pour tous. Rappelons tout de même que le numérique ne vient pas ici remplacer le support papier, car il ne pourra jamais évoquer la sensation de tenir un document ancien entre nos mains ni recréer son odeur, mais aide plutôt à assurer la conservation de ces documents marqués par le temps et en faciliter leur diffusion sans les dégrader davantage.

Comment alors favoriser encore davantage l’accès aux archives historiques en cette période de transition technologique? Les chercheurs ayant adopté l’approche des humanités numériques sont probablement très bien placés pour nous aider dans cette réflexion sur l’utilisation des nouvelles technologies. Plusieurs outils développés dans ce domaine en émergence pourraient en effet trouver utilité du côté des archives selon moi. Un peu comme les archivistes se doivent maintenant de maitriser l’environnement numérique, sans oublier assurer une forte collaboration avec les TI, surtout au niveau des archives administratives presque exclusivement nées numériques de nos jours, les chercheurs en humanités numériques se transforment peu à peu en développeurs d’applications afin de prendre en main les outils technologiques et les personnaliser selon leurs besoins. Les similitudes entre les archivistes et ces chercheurs sont donc nombreuses. Tous deux sont passés (ou feront la transition éventuellement) des méthodes classiques aux nouveaux outils numériques.

Mais établissons d’abord ce que sont les humanités numériques. Elles émergent environ en même temps que l’informatique, grâce aux travaux du père Busa, quoiqu’elles seront nommées seulement vers le début des années 2000. Elles ne forment pas une seule discipline à proprement parler, mais sont plutôt multidisciplinaires, car elles peuvent s’appliquer à plusieurs domaines, tout en restant principalement axées vers les sciences sociales. On ne doit cependant pas les voir comme une simple addition des humanités et du numérique, mais plutôt comme une conjonction entre les deux qui sont en constante relation. D’un côté, les outils numériques permettent une analyse avancée et automatisée des humanités, et parallèlement on étudie comment le numérique vient bouleverser nos façons d’agir et d’être. Les humanités numériques présentent un renouvellement des méthodologies de recherche, mais surtout une perspective différente, un nouveau point de vue à travers le filtre du numérique.

J’aborderai donc la problématique en tentant de faire ressortir des pistes de solutions inspirées des humanités numériques qui pourraient répondre aux obstacles de l’accessibilité auxquels nous sommes confrontés. Puisque les humanités numériques visent principalement la littérature, du moins basé sur ce que j’ai pu étudier jusqu’à présent, je me concentrerai donc sur les archives textuelles. Je ne tiendrai pas compte non plus de l’aspect législatif de l’accessibilité, la protection des renseignements personnels par exemple.

Nous verrons d’abord l’aspect de la numérisation des archives historiques papier afin d’accéder aux contenus qu’elles portent ainsi que d’en permettre une analyse plus poussée. L’enjeu de la lisibilité des documents numériques face à l’obsolescence des supports et des équipements de lecture sera ensuite abordé. Puis un dernier obstacle à l’accessibilité portera sur la fragmentation de l’information sur les multiples plateformes.


Plan

Numérisation des archives papier et limites de la reconnaissance optique des caractères (OCR)

  • Pourquoi numériser?
    • définir ce qu’est la numérisation
  • Coup d’oeil aux standards et procédures de numérisation déjà en place à BAnQ
    • formats privilégiés (PDF/A, texte brut), résolution, documentation), voir (BAnQ 2020) et (BAnQ 2014)
  • Reconnaissance de caractères et de textes manuscrits
  • Fouille et analyse de corpus
    • la recherche plein texte, simple mais limitée
    • la visualisation de données
    • parallèle avec les nouvelles pistes explorées en archivistique
      • classification par facettes, Ranganathan, mathématicien indien et bibliothécaire, début du 20e siècle, voir (Mas et al. 2012)
      • nouvelle norme de description : Records in Context (RiC), un modèle conceptuel, graphe de données, relations entre les entités

L’enjeu de la lisibilité des documents numériques dans le futur (et même le présent)

  • Virage numérique : les archives administratives numériques d’aujourd’hui deviendront les archives historiques de demain
    • différence entre un document numérisé et un document né numérique, voir (Ponce s. d.)
  • Le problème : l’obsolescence rapide des supports et des machines pour les lire
    • nécessite une conversion ponctuelle dans le temps (conversion de format, transfert de support)
    • besoin de recréer l’environnement
  • Faire les bons choix : préférence des humanités numériques envers les formats ouverts et logiciels libres
    • différences entre format ouvert vs fermé et logiciel libre vs propriétaire
    • but : assurer l’interopérabilité et notre dépendance aux appareils de lecture
  • Repenser nos pratiques d’écriture
    • l’exemple des sites web statiques (vs dynamiques) et de leur archivage
    • le web sémantique et les données liées
      • pourquoi? : rendre nos écrits calculables (donc accessibles à la machine)
      • comment? : balises pour contextualiser, encodage de texte pour aider la machine à mieux comprendre
      • WYSIWYG vs WYSIWYM

Fragmentation de l’information et multiplication des plateformes

  • Constat : il n’y a pas de répertoire commun des centres d’archives au Québec

  • Favoriser la collaboration et le partage des ressources

    • les communs, une culture de collaboration déjà présente dans le milieu archivistique et en humanités numériques
    • libre accès, l’exemple du partage sur GitHub (ou autre plateforme)
      • code accessible à tous pour réutiliser et modifier selon ses besoins
  • Parenthèse législative : les licences ouvertes


Conclusion


Bibliographie

BAnQ. 2014. « Recueil de règles de numérisation ». BAnQ Numérique. http://numerique.banq.qc.ca/.
BAnQ. 2020. « Guide concernant les formats recommandés par BAnQ ». https://numerique.banq.qc.ca/patrimoine/details/52327/4076856.
Cartier, François. 2021. « ARV1055 - Description des archives - Cours 13 : La Diffusion des archives ».
Fauchié, Antoine. 2022. « Notes de présentation du cours HNU2000 - Humanités numériques : technologies ». https://hnu2000.quaternum.net/.
« Gephi - The Open Graph Viz Platform ». s. d. Consulté le 13 décembre 2022. https://gephi.org/.
Harangozó, Adam. 2020. « Manifeste du pigeon voyageur ». https://ppmanifesto.hcommons.org/manifeste-du-pigeon-voyageur/.
« HNU1000 - Humanités numériques : théories - Notes de cours collaboratives ». 2022. https://demo.hedgedoc.org/xswO8I4QQJu5ZHjDAFPclg#.
Kiessling, Benjamin, Robin Tissot, Peter Stokes, et Daniel Stökl Ben Ezra. 2019. « eScriptorium: An Open Source Platform for Historical Document Analysis ». In 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW), 2:19‑19. https://doi.org/10.1109/ICDARW.2019.10032.
Mas, Sabine, Dominique Maurel, Inge Alberts, Nicolas Delpierre, Françoise Hiraux, et Françoise Mirguet. 2012. « Actualité du records management. Une expérience d’approche par la classification à facettes ». In Les chantiers du numérique. Dématérialisation des archives et métiers de l’archiviste. Actes des 11e Journées des Archives, 75‑106. Louvain-la-Neuve: Academia.
Ponce, Guillaume. s. d. « Qu’est-ce qu’un format ouvert ? ». Logiciel libre / culture libre. Consulté le 11 décembre 2022. http://libre.guillaumeponce.org/qu-est-ce-qu-un-format-ouvert.
« Programme de collecte de sites Web ». s. d. BAnQ. Consulté le 5 décembre 2022. https://www.banq.qc.ca/notre-institution/bibliotheque-nationale/programme-de-collecte-de-sites-web/.
Stokes, Peter A. 2020. « eScriptorium : un outil pour la transcription automatique des documents ». Billet. EphéNum. https://ephenum.hypotheses.org/1412.
Terras, Melissa. 2010. « The digital classicist: Disciplinary focus and interdisciplinary vision ». Digital Research in the Study of Classical Antiquity, 171‑89. https://www.ucl.ac.uk/infostudies/melissa-terras/research/Chapter_10_Terras.pdf.
« The eScriptorium VRE for Manuscript Cultures ». 2021. Classics@ Journal. https://classics-at.chs.harvard.edu/classics18-stokes-kiessling-stokl-ben-ezra-tissot-gargem/.
« Voyant Tools ». s. d. Consulté le 13 décembre 2022. https://voyant-tools.org/.
Winand, Annaëlle. 2022. « Notes de présentation du cours ARV1056 - Diffusion, communication et exploitation ».