Classer la bibliothèque de la littérature numérique
Exemple du CELL Project
Emmanuelle Lescouet
Département des littératures de langue française
2104-3272
Sens public

Le Web est un espace public, nous pourrions donc en faire la plus grande bibliothèque du monde. L’obsession humaine pour le classement va d’ailleurs dans ce sens (Verlaet 2010).

Sur le Web, la démarche de l’internaute n’est pas centrée sur les institutions mais sur les contenus. Pour faciliter cette transversalité, bibliothèques, archives et musées doivent dépasser leurs modèles historiques de formalisation des données… grâce aux standards du web de données. (Angjeli 2011)

Si la ressource n’est disponible que sur une base de données non indexée par des moteurs de recherche, elle restera non-lue, et potentiellement non-étudiée. Le risque est alors d’avoir des zones aveugles dans la recherche. Un des défis de la création de bibliothèques numériques est de rendre interopérable et de fluidifier la navigation entre les ressources bibliographiques.

Over the centuries, print literature has developed mechanisms for its preservation and archiving, including libraries and librarians, conservators, and preservationists. Unfortunately, no such mechanisms exist for electronic literature. The situation is exacerbated by the fluid nature of digital media; whereas books printed on good quality paper can endure for centuries, electronic literature routinely becomes unplayable (and hence unreadable) after a decade or even less. The problem exists at both the software and hardware levels. (K. N. Hayles 2007)

Le catalogage est un des moyens de conservation, nous ne le développerons pas ici, remarquons cependant que certaines œuvres documentées ne sont plus accessibles et que pour en poursuivre l’étude au sein d’un corpus, nous devons nous référer à leurs fiches. Le parallèle est facile à établir avec des éditions désormais disparues. Il est intéressant de noter que la diversité des productions littéraires est grande, autant par les technologies et supports qu’elles exploitent, que par les modes de navigation imaginés. Hayles (2002) prend comme exemple l’écart entre les romans par emails (populaires dans les années 90) et les propositions en réalité virtuelle qui commençaient à se faire jour au début des années 2000.

Classification

Les possibilités du web tant dans l’accès généralisé que dans une forme d’horizontalité, permet une extension des missions des bibliothèques, notamment par une plus grande accessibilité des catalogues grâce à l’interopérabilité des bases de données. Si cet idéal n’est pas encore réalisé pour les bibliothèques physiques, il ne l’est pas non plus pour celles référençant des œuvres numériques. Nous avons encore la possibilité de façonner les réponses qui seront développées pour elles. Nous pourrions à la suite de Borgman (2000) espérer une plus grande adaptation aux souhaits et besoins des usager.es à travers des services correspondant aux communautés qui sont en contact avec les outils. Une façon de réintroduire de l’humain, une forme d’incarnation de la figure de prescripteur qu’a pu être le.a bibliothécaire, dans la vie du public.

Nécessité de classement

Quelles que soient les œuvres littéraires traitées, nous avons besoin de les classer pour les manipuler. Pour étudier des caractéristiques communes nous avons besoin d’un vocabulaire commun. De même pour créer des corpus nous avons besoin de catégories communes pour rassembler des groupes, pensons aux batailles autour des désignations des genres littéraires et de l’établissement de leur frontières.

Dans les bibliothèques et les archives, les fiches documents existent et sont normalisées depuis longtemps. Des terminologies communes ont été institutionnalisées pour une meilleure compréhension de ces entrées. Elles ont été uniformisées souvent au niveau national ou continental (voir mondial dans ses grandes lignes) ; avec des normes communes : usage par exemple de l’Afnor pour les bibliothèques françaises. Leur ouverture au web sémantique demande une adaptation, plus que cela sans doute, une remise en question des pratiques de catalogage. Ce dernier devant s’ouvrir à d’autres aspects caractéristiques ayant trait au support, à la diffusion, à l’interaction du ou de la lecteur.ice avec l’œuvre.

Pour les œuvres sur le web, et plus largement celles nées de la combinaison du code et du langage, l’objectif est de sortir du chaos des entités distinctes pour clarifier la production. Cela nécessite des vocabulaires compréhensibles largement, bien que construits par des experts. L’impératif de réutilisation de l’existant pour optimiser le travail effectué est toujours d’actualité. Nous avons intérêt à compléter des fiches communes plutôt que de reprendre de zéro chaque entrée. Pour cela elles doivent être accessibles à tous et toutes et éditables par chacun.e.

Cependant, chaque catalogue a ses propres particularités, il faut parvenir à construire des ontologies et des thésaurus permettant de conserver et de rendre compte de ces particularités. Il faudrait donc trouver un équilibre entre des propositions homebrew1 et les contraintes du commun. L’interopérabilité n’est pas encore accomplie alors même que les bases de données possèdent déjà des informations pertinentes (Lagoze et al. 2005).

Web sémantique

The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries." “W3C Semantic Web Activity”. World Wide Web Consortium (W3C).

Le web sémantique, vise à terme à se superposer au web actuel. Il tend vers l’utopie d’un balisage total du contenu. Il repose sur l’établissement de vocabulaires communs et non-ambigus. Il est développé en de nombreuses couches que je vais résumer ici en cinq étapes :

  • l’XML (Extensible Markup Language), le contenu brut et ses métadonnées ;
  • enrichi par le RDF (Resource Description Framework) décrivant sous forme de triplets les données ;
  • des ontologies (OWL par exemple) représentant des perspectives sur les connaissances, une structuration du savoir en question ;
  • mises en valeur par un traitement logique ;
  • une validation (authentification) de la ressource menant à ce qui sera affiché sur l’interface accessible à l’utilisateur. (Gagnon 2013)

Il comporte un balisage qui indique ce qu’est chaque chose : bien sûr les titres, corps, liens, etc., mais également en détail : ce qui est une citation, un exemple, un auteur par rapport à un traducteur, etc. Cette organisation se fait à travers des vocabulaires : des ensembles de termes structurés. Par l’organisation de référentiels communs : thésaurus, nomenclatures, classifications, taxonomies… C’est dans cet aspect qu’il peut être un outil pour le référencement évoqué précédemment.

Un réservoir de concepts et de termes (thésaurus ou vedettes matière, nomenclature, classification, taxonomie) est encodé selon les règles du web de données : identifiant unique et pérenne pour chacun des concepts ou chacun des regroupements de concepts (champ sémantique), structure normalisée pour l’échange de ces concepts et termes. (Angjeli 2011)

Les ontologies sont la structure alors que les thésaurus sont les données que nous rentrons dans ces structures. Ce sont ces dernières que nous (humains) manipulons directement, alors que les ontologies sont destinées aux machines. Les ontologies peuvent être utilisées pour des raisonnements et des études statistiques qui dépassent le champ d’expertise d’un individu. L’établissement des bons vocabulaires, correspondant réellement aux corpus étudiés, est un défi. Pour calibrer des outils qui permettent la finesse d’analyse et des rassemblements pertinents, un long travail est nécessaire.

L’enjeu est ici de créer des liens entre les ressources. Un exemple parlant en est l’indexation des autorités : les personnes ou les lieux. Cela permet de jeter des ponts entre des ressources relevant d’un intervenant commun ou d’un lieu de publication identique. Nous voyons d’instinct l’intérêt de recherche de telles données pour déterminer les tendances de publication ou de création sur une scène littéraire particulière.

CELL Project

“[t]he cell, the smallest autopoietic structure known today . . . the minimal unit that is capable of incessant self-organizing metabolism.” (Humberto Maturana)

Fondé en 2010, le CELL (Consortium on Electronic Literature) est une organisation internationale, intimement liée à l’Electronic Literature Organisation (ELO) dont le principal objectif est de développer des structures d’informations pour classifier les œuvres créatives liées au numérique dans un cadre universitaire (Collectif s. d.). Le projet se base sur un constat défaitiste, si ce n’est alarmiste :

Our Consortium arrives at the end of electronic literature, in the sense that the inclusion in databases of literature and its scholarship is the achievement or goal of a unified field and discipline (Collectif s. d.).

Si nous avons déjà entendu des hauts cris annonçant la fin de la littérature en voilà un nouveau : la littérature électronique aurait déjà tout donné !

The fact that all of textual production can now be brought into databases, and that these can now (in principle) be brought into contact with one another, can be said to mark the end of new media as a space of innovation (Collectif s. d.).

Enclore en 2010 la production, toute la production possible, dans une simple prolongation de ce qui s’est fait est étonnant. Nous pouvons considérer que la littérature numérique est récente, pratique d’une cinquantaine d’années, et grand public depuis bien moins. N’est-il pas décevant que tout ait été inventé et trouvé en si peu de temps ? Que dire des futures machines qui nous permettront des perceptions, des mises en espaces et donc des lectures que nous ne pouvons pas encore imaginer ? Serait-ce dire que ce ne sera pas de la Littérature (la majuscule s’impose)… mais alors pourquoi les hypertextes en seraient ?

Un peu plus loin dans le manifeste du CELL Project, nous apprenons que ce n’est qu’une question de temps avant que toutes les œuvres aient été indexées. Je croise les doigts, touche du bois et embrasse des lapins pour que cette prophétie ne se réalise jamais !

Une ambition idéaliste

Le CELL Project vise à unifier les termes utilisés entre les répertoires d’œuvres littéraires existants et à accompagner la création de nouvelles bases de données. En s’appuyant sur les outils du web sémantique, il vise à construire des taxonomies communes. En unifiant la recherche internationale sur les littératures numériques, il deviendrait possible d’unifier le champ. L’ambition affichée dans le manifeste du projet2 est “d’être ce que Wikipédia a été pour d’autres champs de recherche”…

Le site du projet comporte un outil de recherche qui permet l’accès aux différents répertoires du projet en une seule recherche.

Usage de MODS et catégories

Le CELL Project a fait le choix de développer des Metadata Object Description Schema (schéma XML) propres pour ses objets. MODS a été pensé pour les entrées bibliographiques, afin de les faire correspondre aux MADS (Metadata authority Description Schema). MODS est proche du langage naturel, il permet de créer des vocabulaires personnalisés, sans avoir à les faire valider par d’autres associations. Cette indépendance tend à enclore les taxonomies créées à l’usage pour lequel elles ont été conçues, et à des acteurs prédéfinis. En cela, il se place en marge de la démarche du web sémantique.

Tous les membres actifs doivent se mettre d’accord (accepter) les terminologies choisies. Contrairement à ce qui semblait exposé précédemment dans le manifeste, les tags sont libres : au choix de chacun.e de remplir les Taxonomies des termes qui correspondent le mieux au corpus étudié. Cependant ils sont confiants dans la convergence des termes utilisés, comme une sélection naturelle, s’effectuant à des vitesses variables à travers le globe mais tendant à valider leurs hypothèses.

Le CELL project propose quatre taxonomies :

  • le type de publication : comment l’œuvre est rendue publique ;
  • la modalité procédurale : quelles actions le lecteur.ice doit effectuer pour avoir accès à l’œuvre ;
  • le mécanisme : l’outil qui permet de communiquer avec l’œuvre (de lui fournir les inputs nécessaires à son fonctionnement) ;
  • le format.
Publication Type(s) Procedural modality(ies) Mecanism Format
Application - Computer Program Activation - Deactivation Biomonitoring Device Audio
Audio Tape Alteration Camera Database
CD-ROM Detection Device ID Image / Picture
DVD-ROM Download Display Physical Artefact
Exhibition Generation Locational Device Search Engine
File Insertion Keyboard Text
Film Login Microphone Video
Floppy Disk Manipulation Midi Controller Video Game
Installation Navigation Printout Virtual Environment
Site-Specific Installation HyperTextual Navigation Radio Other
Locative Installation Graphical Navigation Screen
Permanent Installation Spatial Navigation Smartphone
Online gallery Temporal Navigation Speaker
Performance Scheduled Navigation Tablet
Single Performance Networked Interactivity Touchscreen
Repeatable Performance Observation Vibration
Locative Performance Transcoding Other
Site-Specific Performance Upload
Platform Other
Photographic Print
Print
Platform
Social Network
USB Drive
VHS
Vinyl Record
Virtual World
Website
Other

La page des Taxonomies donne accès aux termes de chaque vocabulaire via un menu déroulant, reproduits dans le tableau ci-dessus. Chacun ouvre sur une page, que je suppose devoir contenir sa définition… mais qui ne comporte que lui-même. La plupart des termes parlent d’eux-mêmes : un CD-ROM est facile à reconnaître… Alors que d’autres tel “Graphical Navigation” ou “Networked Interactivity” auraient sans doute profité d’une description.

De plus, d’autres informations sont nécessaires au référencement, au premier rang desquelles le titre, l’auteur, l’année de création ou de publication. Ces champs sont forcément renseignés autrement : sous MODS ou sous un autre système de métadonnées. Chaque répertoire a ses propres réponses allant de l’usage de MODS pour tout, au balisage d’un XML depuis Drupal, ensuite re-formaté en Dublin Core ou en MODS selon la sortie voulue (NT2).

Vers une multiplicité des projets

Le CELL Project regroupe 9 répertoires (en 2020). Chacun ayant ses particularités. Sans les détailler, nous pouvons évoquer celui du NT2 qui se concentre sur des œuvres hypermédiatiques, alors que celui d’I ♥ E-Poetry se focalise sur la poésie ; Adelta, en Australie, répertorie les œuvres Text based. Chacun a ajouté des taxonomies qui correspondaient à son corpus, a modifié de son coté les vocabulaires en fonction des objets qu’il avait en main. Ce que le CELL acte dans sa page Taxonomie :

Each built a classification system for the works in their database through taxonomies that are specific to their research orientation.

Dublin Core

Le Dublin Core est un outil de balisage. Publié pour la première fois en 1995 (et réellement mis en service en 2000) par la DCMI (Dublin Core Metadata Initiative), avec 13 puis 15 éléments3, il a été fortement enrichi en 2019, avec la publication d’une “phase 2” (DCMI s. d.). Il est très ouvert, espérant offrir un outil commun pour relier et référencer uniformément les productions humaines.

Le Dublin Core est depuis 2000 l’un des vocabulaires reposant sur le RDF et des URI persistants le plus utilisés (DCMI s. d.). Il permet aussi de s’appuyer sur la multiplicité des vocabulaires RDF, comme Friend of a Friend (FOAF), Bibliographic Ontology (BIBO), and Schema.org.

Despite efforts of the W3C’s Semantic Web initiative, the holy grail of semantic interoperability remains elusive. Finally, with increasing amounts of rich information born in digital form and stored in institutional repositories, we still lack standard, scalable techniques for fully preserving that information. (Lagoze et al. 2005)

Utiliser le Dublin Core qui est plus répandu pourrait être une des pistes pour améliorer cette interconnexion. Nombre des répertoires du CELL Project ont déjà fait ce choix pour leurs métadonnées. Cela permet notamment un référencement par des moteurs de recherche (déjà calibrés pour ce format)(Panchyshyn et Bouthillier 1997). Les termes sont libres au sein de chaque vocabulaire, ce qui permet de s’adapter aux besoins précis de chaque projet, tout en restant largement interopérable (Kembellec 2013).

Vers une évolution des catégories

Nous sommes, en temps qu’universitaires travaillant sur ces corpus en charge de poursuivre ce travail. Si je pense profondément que la littérature d’il y a 10 ans n’est pas la seule qui n’existera jamais et que les supports, les gestes et les formes de lecture ont et vont évoluer ; c’est à nous de garder l’œil ouvert pour les décrire et parler des pratiques réelles des lecteur.ices.

Nous pourrions également questionner la place de l’expert dans ces référencements. Les pratiques évoluent vite et le temps qu’elles soient documentées certaines ne sont déjà plus ou mal lisibles. Les lectures quotidiennes, drainant un grand nombre d’usager.e.s comme les fanfictions ou les webcomics ont des durées de vie parfois courtes avant d’être retirés des plateformes. Cela ne supprime pas pour autant l’impact littéraire qu’ils ont pu avoir sur celles et ceux qui les ont lus. Les œuvres applicatives, intimement liées à des hardwares remplacés régulièrement et à des systèmes d’exploitation en perpétuelle évolution posent également la question de l’étude des pratiques. Cependant en ouvrant aux communautés les outils de référencement, comme a pu le faire Wikipedia, un espoir est permis. Si les communautés sont fortes, elles auront facilement tendance à mettre en avant l’objet de leur fandom. Ainsi une dimension de mémoire collective liée aux recommandations sur les réseaux pourrait être une piste de renforcement des répertoires actuels.

Bibliographie

ALN NT2, et collectif. 2006. « Répertoire d’oeuvres ». Répertoire. 2006. http://nt2.uqam.ca/fr/search/site/?f%5B0%5D=type%3Arepertoire&retain-filters=1.
Angjeli, Anila. 2011. « La normalisation en bibliothèque à l’heure du web sémantique ». Documentaliste - Sciences de l’Information 48 (4):http://www.cairn.info/article.php?ID_ARTICLE=DOCSI_484_0042 & DocId=45005 & Index=%2Fcairn2Idx%2Fcairn & T. https://hal-bnf.archives-ouvertes.fr/hal-00875829.
Archibald, Samuel. 2009. Le texte et la technique, La lecture à l’heure des médias numériques. Erres Essais. Montréal: Le Quartanier.
Augé, Claire. 2018. « Écriture collaborative numérique et appropriation d’une œuvre patrimoniale ». Français aujourd’hui, nᵒ 200:57‑66.
Bermès, Emmanuelle. 2013. Le Web sémantique en bibliothèque. Bibliothèques. Éditions du Cercle de la Librairie. https://www.cairn.info/numero.php?ID_NUMPUBLIE=ELEC_BERM_2013_01.
Bermès, Emmanuelle. s. d. « Des identifiants pérennes pour les ressources numériques : L’expérience de la BnF ». Bibliothèque nationale de France, 9.
Bolter, Jay David, et Richard Grusin. 1999. Remediation: Understanding New Media. Cambridge: MIT Press.
Borgman, Christine L. 2000. « Digital libraries and the continuum of scholarly communication ». Journal of Documentation 56 (4):412‑30. https://doi.org/10.1108/EUM0000000007121.
Bouchardon, Serge, et Bruno Bachimont. 2013. « Preservation of Digital Literature: from Stored Memory to Reinvented Memory ». Cibertextualidades, nᵒ 5:184‑202. http://www.utc.fr/~bouchard/articles/Bouchardon-Bachimont-Cibertextualidades-2013.pdf.
Cardon, Dominique. 2018. « Le pouvoir des algorithmes ». Pouvoirs 164 (1):63‑73.
Château, Stefan du, Eunika Mercier-Laurent, Laurent Bricault, et Danielle Boulanger. 2020. « Modélisation des connaissances et technologies du Web sémantique : deux applications au patrimoine culturel ». Humanités numériques, nᵒ 2. https://journals.openedition.org/revuehn/510.
Cheney-Lippold, John. 2017. We Are Data: Algorithms and the Making of our Digital Selves. New York: NYU Press.
Collectif. s. d. « CELL Project ». Consulté le 19 octobre 2020. https://cellproject.net/.
DCMI. s. d. « Home ». Consulté le 19 octobre 2020. https://dublincore.org/.
Gagnon, Michel. 2013. « Les bibliothèques numériques sont-elles solubles dans le Web sémantique ? ». Documentation et bibliothèques 59 (3):161‑68. https://www.erudit.org/fr/revues/documentation/2013-v59-n3-documentation0849/1018846ar/.
Hayles, Katherine. 2002. Writing machines. Mediawork pamphlet. Cambridge, Mass: MIT Press.
Hayles, Katherine N. 2007. « Electronic literature: what is it? ». 2007. https://eliterature.org/pad/elp.html.
Jacquet, Christophe. 2003. « Métadonnées et Dublin Core Openweb.eu.org ». 2003. https://openweb.eu.org/articles/dublin_core.
Kembellec, Gérald. 2013. « Recherche exploratoire : proposition d’une méthode basée sur une ontologie de domaine ». In Contextes, langues et culturesdans l’organisation des connaissances, édité par Amos David \& David Kislin, 281‑302. Paris, France: ISKO France. https://hal.archives-ouvertes.fr/hal-01348474.
Lagoze, Carl, Dean B. Krafft, Sandy Payette, et Susan Jesuroga. 2005. « What Is a Digital Library Anymore, Anyway? ». D-Lib Magazine, novembre. https://www.dlib.org/dlib/november05/lagoze/11lagoze.html.
Manovich, Lev. 2001. The language of New Media. Cambridge: MIT Press.
Marino, Mark C. 2020. « Critical Code Studies: a Manifesto ». In Critical code studies. Cambridge, Massachusetts: MIT Press. https://via.hypothes.is/https://scolaire.loupbrun.ca/a20/fra6730/lib/Marino-2020-Critical-code-studies-initial-methods.pdf.
Méchoulan, Eric, et Marcello Vitali Rosati. 2018. « L’espace numérique ». Sens Public, juin. http://www.sens-public.org/article1314.html.
Noyer, Jean-Max, et Maryse Carmes. 2012. « Le mouvement " Open Data " dans la grande transformation des intelligences collectives et face à la question des écritures, du web sémantique et des ontologies », juillet.
Panchyshyn, Roman S., et France Bouthillier. 1997. « Cataloguer le cyberespace : le défi des ressources électroniques ». Documentation et bibliothèques 43 (3):137‑47.
Petit, V. 2013. « Internet, un milieu technique d’écriture ». In Réseaux socionumériques et médiations humaines, édité par Estrella Rojas, 155‑73. Paris: Hermès-Lavoisier.
Silva, António Rito, et Manuel Portela. 2014. « TEI4LdoD: Textual Encoding and Social Editing in Web 2.0 Environments ». Journal of the Text Encoding Initiative 8. https://journals.openedition.org/jtei/1171.
« SKOS Simple Knowledge Organization System - home page ». s. d. Consulté le 10 décembre 2020. https://www.w3.org/2004/02/skos/#xd_co_f=MTE1ZmM0YTktYTYwYy00MmQzLWE2MDctZmJhZDhiNDgyZjBl~.
Torres, Diego. 2014. « Co-Evolution Between Social and Semantic Web ». Thèse de doctorat, Université de Nantes ; Universidad Nacional de La Plata, Argentina. https://tel.archives-ouvertes.fr/tel-01078831.
Verlaet, Lise. 2010. « Application du Web sémantique : vers l’avènement du balisage sémantique et des modélisations des connaissances évolutives ? ». Journal of Media Research - Revista de Studii Media 3 (8):12‑24. https://hal.archives-ouvertes.fr/hal-01676493.
Vitali-Rosati, Marcello. 2018. On Editorialization: Structuring Space and Authority in the Digital Age. Collection Theory on Demand. Amsterdam: Institute of Network Cultures.

  1. Terme ici employé au sens des game Studies, au sens d’une création “maison”, à partir de logiciels et/ou de matériel existant, mais remodelé pour atteindre un nouvel objectif, proposer une nouvelle forme.↩︎

  2. https://cellproject.net/manifesto↩︎

  3. Creator, Contributor, Publisher, Title, Date, Language, Format, Subject, Description, Identifier, Relation, Source, Type, Coverage, and Rights.↩︎