Chapitre 01 - lectio

Chapitre I - lectio

La lecture, activité humaine naturalisée à un point où elle en devient parfois invisible, est l’interprétation du signe dans le cadre d’un modèle ou système. Nous divisons ce processus en deux étapes, d’abord le présent chapitre (lectio) qui met l’accent sur le rapport au signe, puis le chapitre suivant (interpretatio) qui traite du rapport au sens. Dans son Essai sur la notion de lecture, la philosophe française Simone Weil qui place l’origine de sa notion de lecture dans l’anticipation et l’association parfois arbitraire :

Le mystère est que des sensations en elles-mêmes presque indifférentes nous saisissent de la même manière par leur signification. Quelques traits noirs sur du papier blanc, cela est bien différent d’un coup de poing dans l’estomac. Mais parfois l’effet est le même. […] Il ne s’agit pourtant pas de quelque chose d’analogue au réflexe conditionnel; il s’agit de quelque chose d’analogue à la lecture, où parfois une combinaison de signes toute nouvelle, et que je n’avais jamais vue, me saisit l’âme, où la signification qui blesse pénètre, avec le blanc et le noir, aussi irrésistiblement qu’eux. […] Ainsi les significations, qui examinées abstraitement sembleraient de simples pensées, surgissent de toutes parts autour de moi, s’emparent de mon âme et la modifient […] (Weil 1946)

Les processus derrière la lecture humaine sont nombreux et complexes, tant et si bien qu’il est difficile de théoriser cet acte vieux de 6000 ans que nous accomplissons tous les jours de manière automatique (Glavanakova 2020). La lecture résiste aux descriptions et à l’analyse de la même façon que l’esprit humain s’en échappe ; il n’en reste pas moins que plusieurs modèles offrent une meilleure compréhension de la lecture. Plusieurs modèles compétitionnent (Dufays, Gemenne, et Ledur 2005) ; la psychologie, la science cognitive, la narratologie, les approches esthétiques, et la philosophie offrent des théories parfois complémentaires, parfois incompatibles. Malgré l’absence d’une théorie définitive ou unifiée de la lecture¹, et l’incertitude quant à la place exacte de la lecture dans l’expérience humaine, il est possible de caractériser la lecture. En utilisant ces caractéristiques (développées dans la section Comment l’humain lit-il la littérature) comme des principes premiers, nous sommes à même développer une théorie limitée de la lecture, suffisante à nos buts, car c’est en explorant de manière similaire les caractéristiques de la lecture artificielle que nous pouvons produire un cadre de comparaison entre ces deux formes de lecture. Un tel cadre servira d’outil dans le prochain chapitre pour trouver les différences et parallèles entre l’interprétation humaine et l’interprétation numérique. En envisageant ces caractéristiques comme des principes premiers de la lecture, les différences entre la lecture humaine et la lecture algorithmique se traduisent en différents modes interprétatifs. Dans le cas de la lecture humaine, l’accent est mis sur la production de modèles à partir de textes littéraires en utilisant le concept de Dasein (Heidegger 1962) et la (bio)sémiotique dans un contexte herméneutique (Hayles 2019). La lecture numérique est approchée du point de vue du formalisme et du structuralisme, ainsi que du côté des différences de limites respectives de la cognition humaine et de la computation. Les discussions d’interprétation numérique textuelle se trouvent dans le chapitre II - interpretatio dans lequel des parallèles entre la biosémiotique et la cybersémiotique (Hayles 2019) servent de point de départ à la construction d’un cadre théorique de l’interprétation algorithmique.

Lecture humaine et littérature

La lecture est une fonction cognitive de haut niveau qui se base sur des fonctions cognitives plus simples à propos desquelles nous n’avons que des connaissances partielles(Glavanakova 2020) et qui tombent en dehors de la portée du présent mémoire. Dans Lenses on Reading. An Introduction to Theories and Models Daine Tracey et Lesley Morrow identifient plusieurs approches à une théorie de la lecture : comportementale, constructiviste, développementale, physiologique, cognitif, et l’apprentissage social, affectif. Elles tirent des leçons des domaines de l’éducation, la psychologie, la sociologie, la linguistique et la neuroscience (Tracey et Morrow 2006). Notre approche à la lecture humaine est donc ici limitée, nous ne considèrerons qu’indirectement les fonctionnements de la mémoire, de la psychologie, de la cognition ou de l’affect. La lecture peut toutefois être présentée comme étant composite, inter(et intra-)textuelle, diachronique et approximative. Différentes formes de lectures se superposent, différents textes se parlent chez le lecteur qui rencontre ceux-ci de manière séquentielle, interrompue, et sous des modes de lecture changeants. Le problème de la mémoire est également à considérer, les textes n’étant mémorisés que de très rares cas. Similairement à la lecture, la fiction est une forme discursive difficile à formaliser, et même à analyser ; comme dans le cas de la lecture, plusieurs cadres d’analyse (Barthes 1981) permettent d’étendre notre connaissance des formes narratives. Ces théories de la littérature divergent parfois dans leur explication de la création de sens littéraire (Furlong 1995), nous nous concentrons donc sur le modèle sémiotique du texte littéraire.

Dasein et physique moderne

On ne se baigne jamais deux fois dans le même fleuve. - Héraclite

Even in Kyoto
Hearing the cuckoo’s cry
I long for Kyoto
- Basho (traduction de Lucien Stryk)

L’être-là de l’être humain dans l’espace-temps est un facteur premier dans son rapport à la littérature : en tant qu’individu embodied et enworlded, l’humain se rapporte au texte à l’aide de modèles non-textuels (en se restreignant à la définition normative du texte)². Les modèles physiques, émotionnels, relationnels, etc. permettent aux humains une forme d’intertextualité intermédiale : leurs références sont complexes, et leurs référents sont bâtis en dehors du monde littéraire. Ainsi, le lecteur humain reconnaît la fiction comme ayant des règles différentes de la réalité, et peut mettre en relation sa lecture de la fiction avec sa lecture du monde : ses modèles sont comparés et contrastés avec des modèles extra-littéraires. Une conséquence importante du Dasein est la prolifération de modes de lecture et de cadres interprétatifs, parfois chez le même individu. Les littéraires ne considèrent pas tous les référentiels comme équivalents, plusieurs référents peuvent être utilisés pour lire un texte ouvert avec des résultats différents sans qu’aucun ne soit préférentiel (Dufays, Gemenne, et Ledur 2005). Les modes de lecture et cadre interprétatifs des lecteurs dépendent de facteurs linguistiques et culturels, des séquences textuelles, et des expériences du lecteur. L’être-là des lecteurs génère pour chaque texte un espace interprétatif (voir la section sur le sujet) dont les possibilités s’effondrent (au moins partiellement) au contact d’un lecteur particulier. Ainsi, la sémiotique de Charles Sanders Peirce (Atkin 2013 ; Eco 1976) doit être privilégiée sur celle de Ferdinand de Saussure (Culler 1976); dans un signe repose un espace de signifiant qui, comme une particule subatomique, existe dans un nuage de probabilités qui n’est resserré qu’au contact d’un observateur ou interprétant (Cohen-Tannoudji, Diu, et Laloë 2005).

Comment l’humain lit-il la littérature

La lecture humaine est diachronique (Miller 2010), l’être humain ne considérant qu’un texte à la fois. Même dans les cas de lectures simultanées, par exemple dans le contexte de recherches comparatistes, le lecteur doit passer d’un texte à l’autre faute de pouvoir lire les deux en même temps. Ses lectures sont de plus séparées, interrompues par les périodes passées loin du texte : la distraction passagère, le fait de poser le livre pour un temps et de sortir du monde littéraire sépare le temps du lecteur entre la lecture de la fiction et la lecture du monde (Weil 1946). En conséquence de son diachronisme, la lecture humaine est séquentielle et ordonnée : la lecture d’un texte par un humain est toujours une étape intermédiaire de son parcours littéraire (et de ses expériences de vie). Elle est de plus informée par ce qui a été lu (ou s’est passé) précédemment, et envisagée comme faisant partie d’un continuum. La série de rencontres textuelles d’un lecteur ne suit pas de règles précises, il est virtuellement impossible de trouver deux lecteurs ayant expériencé la même séquence littéraire. Ces variations entre lecteurs donnent lieu à déclinaisons infinies de leurs grilles de lecture, cadres interprétatifs et modèles littéraires. L’ordre des lectures est un sujet d’importance pour l’exégèse (Thiselton 1992) car il affecte grandement la production du sens pour trois raisons : 1. Les références (réelles ou accidentelles) aux textes précédemment lus informent la lecture ; 2. Les lectures informent les modèles littéraires et grilles d’interprétation du lecteur, et ces cadres de lecture transforment l’expérience de lecture et d’interprétation³ ; 3) La lecture est influencée par l’état de conscience du lecteur, et l’état de conscience du lecteur est influencé par ses lectures antérieures (Thiselton 1992). La lecture humaine est donc intertextuelle, chaque texte tisse des liens avec d’autres textes, mais aussi avec le monde et avec lui-même. Dans le premier cas, la récursion de thème, de motifs, et de passages joue sur plusieurs niveaux à la fois. Par exemple, le motif du père absent dans l’univers cinématique de Marvel déclenche une réaction émotionnelle amplifiée par sa récurrence (Padnick 2019 ; Hale-Stern 2018) et l’ubiquité du thème de la fin du monde rend possible la production de Don’t Look Up et sa déconstruction des scènes d’Armageddon et d’Independence Day. L’intertextualité avec le monde perçu par le lecteur lui permet d’envisager le texte à partir de sa relation à un contexte sociohistorique, et de transformer son rapport au monde. Toute lecture est également intratextuelle, c’est-à-dire que chaque partie du texte (phrase, paragraphe, chapitre, etc.) voit sa lecture affectée par les parties de texte précédentes⁴. La poétique et la stylistique sont des formes d’intratextualité puisque dans chacun de ces cas, l’oeuvre est génératrice de règles qui la structurent (même si ces dernières viennent d’une tradition extérieure). Par exemple, la structure supplante le sens comme point focal de l’analyse pour les New Critics dont l’approche est notamment immanente (Dufays, Gemenne, et Ledur 2005) : le système structural qui met en relation les signes du poème est l’objet d’étude (McGrath 1985).

La mémoire humaine étant imparfaite et cette dernière étant (comme la lecture) sujette aux changements d’état de conscience, la lecture est approximative. Le processus de référencement aux autres textes est inefficace puisque les textes ne sont pas mémorisés sauf en de très rares cas ; il est donc commun qu’un lecteur ne remarque pas les rappels thématiques, les récursions de motifs ou encore les concordances textuelles. Pire encore, le souvenir du texte présentement lu est sujet à des oublis partiels, ce qui mène parfois à des situations où le lecteur n’a pas toutes les informations pour comprendre l’oeuvre bien qu’elles aient été établies quelques chapitres ou pages plus tôt. Le lecteur retient de manière sélective des fragments d’oeuvre pour un temps limité, ce qui rend son expérience de lecture unique, subjective et arbitraire : la même personne ne saurait lire deux fois le même texte de la même façon. L’état de conscience et le cadre littéraire utilisé par le lecteur lors de sa lecture transforme également son expérience de l’oeuvre, cette dernière est le sujet d’une négociation. En nommant la lecture comme un acte négocié, nous attirons l’attention d’abord vers la différence entre les codes de production d’une oeuvre et les codes utilisés pour la décoder, et ensuite vers la remédiation nécessaire du texte lors de la lecture. L’asymétrie d’encodage est une conséquence de la nature ordonnée de la lecture et de Dasein, et elle est décrite par Stuart Hall dans Encoding and Decoding in the Television Discourse (Hall 1999). Hall identifie trois rapports à l’information ; la position hégémonique, négociée, et d’opposition, mais certains de ses critiques préfèrent utiliser un spectre de sorte que toute lecture soit au moins infinitésimalement négociée (Cole 2020). La correspondance entre le texte et la pensée est imparfaite ; la lecture comme l’écriture ne permet pas le transfert direct de l’information, tant à cause des différences linguistiques inhérentes entre individus qu’à cause des limites et de la stabilité du texte par rapport à la pensée [Note de bas de page/développement nécessaire?]. Finalement, la lecture humaine est une activité composite qui repose sur plusieurs rapports au texte : se superposent les lectures émotionnelle, phonétique, poétique, métaphorique, etc. (Barthes 1981). Dans le cadre de la fiction, la lecture sémantique (soit l’interprétation littérale) est supplémentée et même supplantée par les autres formes de lecture telles que la connotation, les niveaux d’ironie, d’humour ou de fiabilité, la reconnaissance (consciente ou non) des structures des récits, l’identification à des personnages… La tension entre deux formes de lectures qui se contredisent et la superposition de formes de lectures qui se renforcent sont des points d’intérêt en littérature (Culler 2011). Les paradoxes de la littérature (qui offrent des interprétations multiples, superposées, incompatibles, concomitantes) imitent ceux de la réalité et leur étude à partir de théories tirées de recherche en sciences humaines enrichie de surcroît la lecture humaine.

Lecture algorithmique

L’algorithme porte plusieurs connotations, pour la plupart incompatible avec l’idée même de la littérature et de la recherche littéraire. À en croire son bagage sémantique, l’ordinateur est formel, mathématique, et rigide ; il offre une seule solution, la bonne et l’unique, au problème soumis. C’est là une extension du problème des deux cultures (Snow 1959) : l’algorithme, se frappe à la prévalence du récit comme forme de modèle central aux communications humaines et de la fiction comme objet d’étude (Culler 2011 ; Butler 2005). À cette incompatibilité perçue s’additionne une crainte ; celle que la machine puisse remplacer le chercheur dans le domaine qui est, dans le paradigme des deux cultures, le plus humain d’entre tous.

Algorithms, when thought of as remote, inflexible mathematical structures underlying computer programming and the more deterministic branches of science and engineering, can seem irrelevant or even antithetical to the work of the humanities. By concentrating our efforts on the building of algorithmic “text analysis” tools, do we unthinkingly imply that the craft of scholarship can be mechanized? Are we tacitly putting algorithms forth as substitute for contemplation and insight? Or (a far more insidious assumption) are they, as the quiet servants delivering us the “content” of an archive, simply beneath our notice and contempt? (Nowviskie 2004)

The craft if scholarship et l’insight sont des concepts chargés de valeurs et d’histoire : les dissocier du domaine de l’humain est une attaque contre leurs définitions acceptées et le romantisme latent du domaine littéraire (Binder 2020 ; Piper 2018). Dans sa thèse doctorale, Bethany Paige Nowviskie fait l’éloge d’un art de la transformation algorithmique pour provoquer l’intuition humaine et comme nouvelle avenue de recherche académique. Sa vision ludique de l’expérimentation herméneutique algorithmique rappelle l’attitude de Sinclair et Rockwell dans Hermeneutica ; la recherche assistée par ordinateur commence par le jeu et le jouet (to play et toys) (Rockwell et Sinclair 2016). Ces auteurs minimisent le sérieux de leur recherche, d’une part parce qu’elles sont à la fois avant-gardistes et simplistes, d’autre part parce que leurs résultats sont rarement surprenants, ou du moins sont rarement rendus surprenants par ces auteurs [TODO : Retrouver citation]. La vision cartésienne de l’algorithme est toutefois dépassée, puisqu’elle repose sur une compréhension purement mécanique et non statistique de la computation. Aujourd’hui, des algorithmes peuvent générer des modèles sémantiques (Mikolov et al. 2013), imiter des aspects de l’expérience humaine (Hutto et Gilbert 2014), et même développer quelque chose qui s’apparente à l’intuition (Saldler et Regan 2019). Cela ne signifie pas que la machine sera en mesure de vivre l’expérience humaine, mais permet néanmoins d’espérer que la lecture d’un texte par un algorithme soit générateur de sens. La transcendance dans toutes ses formes, la métaphore et autres figures de style, la description des merveilles, l’incarnation et de l’omniprésence du trauma qui lui est lié : la littérature parle d’une réalité qui n’existe pas pour l’ordinateur (Searle 1980). Si la lecture algorithmique est porteuse de sens, ce dernier ne sera pas du même domaine que celui produit par un être humain, mais cela n’invalide ni cet hypothétique sens ni cette lecture, c’est plutôt là une avenue de recherche inexplorée (Binder 2016).

Tenter de répliquer numériquement la lecture humaine sous toutes ses facettes est une idée attirante, mais une telle démarche serait au mieux une batardisation partielle L’esprit humain n’est pas formalisable ; toute réplication de ses fonctions cognitives individuelles est donc au mieux une approximation à partir de présuppositions mathématiques. C’est aussi un enjeu d’intertextualité, les relations entre le texte et la réalité (modèles sociohistoriques ou Dasein) sont porteurs de sens, et notre rapport à la réalité est corporel, intentionnel, et enworlded (Searle 1980). Ainsi, la lecture numérique ne saurait être teintée par les traumas et le désire, l’impuissance ou le contrôle, les deuils et les joies ; l’algorithme est libre des affects de la nature humaine⁵. La lecture algorithmique n’est pas la lecture humaine et ne saurait l’être sans la simulation de l’expérience humaine, mais ce n’est pas là le but de l’interprétation littéraire numérique. Le processus intuitif dépend de la possibilité de découvrir structures non triviales entre différents niveaux de lecture. L’ordinateur peut également avoir plusieurs rapports différents au texte, mais son expérience des signifiants est dissociée du contexte (humain) qui les a produits. La solution à ce problème n’est pas l’apathie, car dans cette incapacité se trouve une opportunité pour la création de nouvelles connaissances inusitées. Les réseaux de neurones sont à même de découvrir des liens inusités qui rappellent l’intuition humaine à certains égards (Binder 2016).

Formalisme

Le formalisme, comme le structuralisme, est antérieur aux ordinateurs ; similairement, l’algorithme n’est pas contingent à la computation. Plusieurs méthodes formelles d’analyse textuelle peuvent être implémentées par des humains, bien qu’elles soient grandement accélérées par l’utilisation d’ordinateurs. L’automatisation des travaux de Iarkho dans le cadre de la thèse doctorale de Inna Alekseyevna Wendell (Wendell 2021) et la découverte des concordances dans l’oeuvre de Saint Thomas d’Aquin (Busa 1980) étant de bons exemples. D’autres méthodes formelles se basent sur des modèles humains pour représenter mathématiquement ou visuellement des modèles, par exemple Tzvetan Todorov qui identifie ainsi les deux motifs principaux du Decameron, soit avoided punishment et conversion (Todorov 1969). On note ainsi deux avenues du structuralisme, soit la formalisation du texte avec des représentations visuelles ou mathématiques d’un côté, et de l’autre une approche quasi-scientifique du texte comme objet formel à caractériser et classifier. Dans un cas comme dans l’autre, le rapport entre le particulier et le général est maintenu comme étant direct, testable, et prouvable. Cette appropriation du langage scientifique court-circuite une possible réconciliation du paradigme des deux cultures en déplaçant la littérature dans le domaine de la science (Piper 2018). Ironiquement, le formalisme est une réaction au romantisme qui a produit la division entre les lettres et les sciences et qui est lui-même une réaction à la montée du scientisme (Binder 2020). Le formalisme agit donc comme une science, par hypothèses et expériences, et emprunte plusieurs aspects de la science tels que les représentations mathématiques et graphiques, la computation, la méthode, la description, et l’isolation du sujet d’étude. Si nous n’adhérons pas aux présuppositions philosophiques des formalistes, leur approche algorithmique au texte est une source majeure d’inspiration de l’analyse quantitative du discours moderne.

L’exemple de Boris Iarkho

Pour le formaliste russe Boris Iarkho, la biologie est la meilleure analogie scientifique pour une approche structurelle de la littérature (Lvoff 2021). La forme du cadre théorique adopté par ce formaliste permet d’effectuer des études comparatistes, de caractériser et classifier des oeuvres, et de faire des découvertes sur les genres littéraires et la littérature. Ses travaux dénotent de l’importance des réseaux, relations, et structures dans la modélisation de la littérature dont l’étude en tant qu’objet vivant demande un cadre théorique capable d’envisager l’évolution, les variations infinies et les continuums. Iarkho utilise des définitions formelles pour caractériser les oeuvres, par exemple, il nomme frequentative weight (FW) le résultat du nombre de lignes d’un personnage divisé par le nombre de fois qu’il parle et speech volume weight le nombre de lignes d’un personnage divisé par le nombre de lignes de l’oeuvre (Wendell 2021).

FW = caracter_lines/caracter_utterances

SWW = caracter_lines/total_lines

Ainsi, il peut définir des le general dialogical weight (GDW) d’un rôle comme étant :

GDW = (FW + SWW)/2

et fait la distinction entre les personnages ayant des scores supérieurs à 15.25 (les personnages principaux), entre 7.34 et 15.25 (secondaires), entre 7.33 et 2.1 (troisième rang), entre 0.1 et 2.09 (quatrième rang), et inférieur à 0.1 (sans dialogue). “Iarkho arrives at these ranges by looking at the role weight distributions and identifying quartiles” (Wendell 2021). L’analyse de Iarkho de la tragédie en cinq actes offre d’impressionnants résultats : à partir des données collectées et de définitions formelles, il réussit à différentier les pièces classiques des pièces romantiques, et à caractériser ces deux genres en fonction de ces mêmes caractéristiques. Qui plus est, son analyse permet de détecter les motifs d’évolution du théâtre au fil du temps : les caractéristiques bougent par vagues, d’auteurs en auteurs, avec des périodes de résurgence et de stabilisation (Lvoff 2021). Les progrès de Iarkho sont freinés d’abord par ses moyens techniques⁶ et ensuite son exile à Omsk à la suite de sa participation à l’écriture d’un dictionnaire russe-allemand jugé comme fasciste par la Cour suprême de l’U.R.S.S. (Gasparov 2016).

Modélisation textuelle algorithmique

Nous ne raisonnons que sur des modèles. - Paul Valéry

Le modèle du texte n’est pas le texte (Erb, Ganahl, et Kilian 2016), et si un texte littéraire n’est pas une base de données (Marche 2012), une base de données générées à partir d’un texte littéraire est fonctionnellement un modèle de ce texte. La modélisation algorithmique, comme la modélisation faite par un humain, est un processus politique et une intermédiation.

It would be naive to suggest that measurements are devoid of power relations, but neither are the acts through which proper names account for knowledge. Models make us aware of the externalities through which we arrive at truth claims. (Piper 2017)

specific levels formed by physiochemical media always contain more information within the level than they communicate upward or downward. (Hayles 2019)

models inscribe our beliefs within them. (Piper 2018)

En passant du texte au modèle, de l’information est perdue, mais de nouvelles formes d’information sont rendues visibles, et ces nouvelles informations portent la marque du modèle. Andrew Piper identifie cinq étapes de la modélisation littéraire dans Think Small: On Literary Modeling (Piper 2017): 1. Theorization : Selon Piper, la modélisation est téléologique ; elle sert à tester une hypothèse et le passage du texte au modèle encode une question. En passant d’un média à un autre, de l’information est perdue, mais des informations qui ne sont pas accessibles au niveau du texte sont rendues visibles, une idée aussi retrouvée chez N. Katherine Hayles (Hayles 2019). 2. Conceptualization : Cette étape demande la particularisation (ou formalisation) de concept à des fins de falsification, le concept doit pouvoir être mis en relation avec le modèle théorique. Ce type de remédiation conceptuelle est imparfait, Piper donne l’exemple de Lancashire et Hist qui ont utilisé la richesse du vocabulaire d’Agatha Christie au fil du temps comme indicateur de l’avancement de sa maladie mentale (Lancashire et Hirst 2009). La modélisation littéraire spécifique dépend, dans ce genre d’exemple, “on the speciications of other models in a larger representational web.” (Piper 2017) 3. Implementation : L’implémentation de méthodes algorithmiques voit le chercheur générer les règles formelles nécessaires à la transformation du texte ou corpus en modèle. C’est une étape délicate d’un point de vue épistémique : c’est à ce point que l’hypothèse et les concepts qui lui sont associés entrent définitivement dans le domaine du nombre. 4. Selection : Le choix des textes à partir desquels le modèle sera produit est, selon Piper, “another approximation of the world through data” (Piper 2017). Cette étape est aussi critique puisqu’il faut choisir les textes en fonction de la question de recherche et du modèle généré pour y répondre, un processus similaire à “laying two maps on top of each other.” (Piper 2017) Il est possible qu’une sélection mène à une perte d’information, ou une meilleure représentation, mais Piper note qu’il est préférable d’avoir plus de données que moins. 5. Validation : Pour valider un modèle, Piper propose un test statistique (Lancashire et Hist utilise la régression) ou une validation par des lecteurs experts. La validation des deux premières étapes est toutefois une autre paire de manches : la formalisation est sujette à des choix arbitraires, et les concordances entre des caractéristiques mesurables et un concept peut être coïncidentelle⁷.

Piper reconnaît que ces quatre premières étapes sont toutes d’une façon ou d’une autre des formes de réduction. La théorisation limite l’approche au texte en fonction de la question de recherche, la conceptualisation dénature les concepts pour les rendre mesurables, l’implémentation est une réduction littérale du texte à un modèle qui ne fait que représenter le texte (Erb, Ganahl, et Kilian 2016), et la sélection limite la recherche à un corpus et à ses règles propres. L’auteur note cependant que la réduction n’est pas unique aux humanités numériques : la généralisation en littérature est le résultat de considérer le particulier comme représentant le général⁸. Nous trouvons dans la littérature plusieurs exemples de modélisation automatique de la fiction à partir de minage de données, tels que la modélisation de réseaux de personnages dans l’oeuvre de Shakespeare (Iyyer et al. 2016) et les différences discursives formelles entre la fiction et la biographie (Underwood 2019).

Caractéristiques de la lecture numérique

À l’inverse de la lecture humaine qui est diachronique, la lecture algorithmique peut être synchronique ; l’ensemble des textes d’un corpus peuvent être considéré à la fois et de la même façon. Ce synchronisme est parfois virtuel : certains algorithmes considèrent les textes les uns après les autres, mais leur ordre n’a pas d’importance (la même opération sera faite sur chaque texte), ou encore tous les ordres sont équivalents (les différences seront marginales si l’ordre des textes est changé). Par exemple, les calculs de Iarkho sur la tragédie en cinq actes ne changeront pas si l’ordre de deux pièces est inversé (Wendell 2021), alors que l’inversion de deux textes aura un effet sur la vectorisation de mot, mais les modèles générés par deux séquences différentes des mêmes textes seront aussi précis (Mikolov et al. 2013). La lecture algorithmique est génératrice de modèles, elle agit donc comme intermédiaire entre deux médias. Cette intermédialité signifie que la lecture algorithmique est réductrice, mais la nature mathématique de cette traduction la rend modulable : des nouveaux outils peuvent être ajoutés, les anciens peuvent être modifiés, de sorte que les modèles produits soient plus sophistiqués, spécialisés, efficaces, etc. La modulation des algorithmes de lecture artificielle peut mitiger la perte inhérente à l’intermédialité pour assurer une meilleure adéquation entre le texte et le modèle. Un autre aspect intrinsèque au numérique est sa capacité à considérer l’ensemble des textes de manière exacte, ce qui est à l’opposé du rapport humain au texte. Ainsi, la lecture algorithmique ne manque aucune concordance, du moins aucune concordance qui réponde à la définition que l’on en fait. L’intertextualité est primordiale dans le cadre de la lecture artificielle : l’ordinateur n’ayant pas accès à une représentation organique de la réalité, toute l’information à laquelle ce dernier a accès est encodée dans les textes que nous lui fournissons. Même lorsqu’un algorithme n’est mis au contact que d’un seul texte, le seul sens qu’il soit capable de produire vient de l’intratextualité que l’on peut résumer en la segmentation du texte en sous-sections. La lecture algorithmique produit donc des résultats à la manière d’un comparatiste désincarné : ses modèles ne sont pas le résultat d’une intention interne ou d’une force autonome (Searle 1980).

La connotation associée à l’expression lecture algorithmique laisse à croire qu’une telle entreprise peut être objective, mais c’est en fait loin d’être le cas, plusieurs niveaux de subjectivités s’y superposent. Certaines sources de subjectivités sont liées à la programmation du programme, d’autres à la nature même des algorithmes et du hardware, et finalement d’autres sont le résultat de choix éditoriaux dans la sélection du corpus (par le chercheur, ou à cause des facteurs de disponibilité et d’indisponibilité).

It would be naive to suggest that measurements are devoid of power relations, but neither are the acts through which proper names account for knowledge. Models make us aware of the externalities through which we arrive at truth claims. (Piper 2017)

Une lecture artificielle n’est pas mue par sa propre volonté, mais elle n’en reste pas moins téléologique et politique. La programmation est informée par les buts, biais et présuppositions des chercheurs ; en récupérer les étapes de la modélisation d’Andrew Piper, nous voyons qu’elles sont toutes sujettes aux influences de ces trois éléments à divers degrés. De la théorisation à la validation, l’aspect téléologique de la programmation guide et resserre les choix, il contient et limite les possibilités. Les présuppositions du chercheur forment le cadre épistémique utilisé dans la programmation, ce qui influence l’angle d’approche de la question, mais aussi informe consciemment les choix de corpus et d’algorithmes⁹. Les biais sont plus facilement détectables dans les questions posées, les choix de corpus, et la validation des modèles. Les préjugés négatifs et partis pris crée un horizon pour les hypothèses valables et dignes d’intérêt, et pointent les chercheurs vers certains corpus alors que d’autres sont ignorés. Similairement, la lecture rapprochée et l’évaluation d’un corpus sont toutes deux affectées par les biais implicites du chercheur. C’est ainsi que la lecture algorithmique est politiquement chargée, que les chercheurs en soient conscients (l’analyse des discours publics d’Erdogan par Senem Aydın-Düzgit en est un bon exemple (Aydın-Düzgit 2016)) ou non (les choix de corpus des premiers projets de stylométrie révèle un important biais favorable aux Pères fondateurs des États-Unis).

Pour plusieurs algorithmes, leur structure même génère une certaine chance dans la création de leur modèle. Les réseaux de neurones sont un bon exemple d’introduction d’un état de base semi-aléatoire ; cet algorithme commence avec un modèle créé au hasard, et chaque itération de l’algorithme change les poids du modèle à la recherche d’une configuration donnant le meilleur résultat possible. Toutefois, les problèmes complexes possèdent plusieurs états pour lesquels l’algorithme est satisfait, des minimums locaux dans lesquels le réseau de neurones s’arrête sans savoir si d’autres points sont plus efficaces à accomplir la tâche en cours (plusieurs techniques permettent d’éviter les minimums locaux, voir (Gori et Tesi 1992)). Ce n’est pas là la seule forme de “subjectivité algorithmique”, les méthodes basées sur les statistiques bayésiennes débutent également avec un état pseudo-aléatoire qui est soit une estimation humaine ou le résultat d’un algorithme simple d’approximation (Brownlee 2018). Finalement, plusieurs méthodes de classification ne fournissent pas des résultats définitifs durant leur tâche, mais offrent plutôt des probabilités d’appartenance à chaque catégorie. C’est là un exemple de fuzzy mathematics, une branche des mathématiques qui utilise des spectres non binaires, et où les objets peuvent appartenir à plusieurs catégories à la fois selon certaines proportions (Bonissone 1980). La linguistique quantitative utilise les fuzzy sets pour représenter les incertitudes et imprécisions associées à l’étude de la langue, une méthode plus efficace que la théorie probabiliste puisqu’elle permet à des éléments linguistiques d’avoir plusieurs identités sémantiques simultanément plutôt qu’une probabilité d’appartenir à l’une plutôt qu’à une autre (Bonissone 1980).

Atkin, Albert. 2013. « Peirce’s Theory of Signs ». In The Stanford Encyclopedia of Philosophy, édité par Edward N. Zalta, Summer 2013. https://plato.stanford.edu/archives/sum2013/entries/peirce-semiotics/; Metaphysics Research Lab, Stanford University.

Aydın-Düzgit, Senem. 2016. « De-Europeanisation through Discourse: A Critical Discourse Analysis of AKP’s Election Speeches ». South European Society and Politics 21 (1):45‑58. https://doi.org/10.1080/13608746.2016.1147717.

Barthes, Roland. 1981. « Introduction à l’analyse structurale des récits ». In Communications, 8 : L’analyse structurale du récit, 7‑33.

Binder, Jeffrey M. 2016. Debates in the Digital Humanities. University of Minnesota Press. http://www.jstor.org/stable/10.5749/j.ctt1cn6thb.

Binder, Jeffrey M. 2020. « Romantic Disciplinarity and the Rise of the Algorithm ». Critical Inquiry 46 (4).

Bonissone, Piero P. 1980. « A Fuzzy Set Based Approach: Theory and Applications ». Proceedings of the 1980 Winter Simulation Conference.

Brownlee, Jason. 2018. « Why Initialize a Neural Network with Random Weights? ». Machine Learning Mastery. 1 juillet 2018. https://machinelearningmastery.com/why-initialize-a-neural-network-with-random-weights/.

Busa, Roberto. 1980. « The Annals of Humanities Computing: The Index Thomiscus ». Computers and the Humanities. North-Holland Publishing Company, 83‑90.

Butler, Judith. 2005. Giving an Account of Oneself. Fordham University Press.

Cohen-Tannoudji, Claude, Bernard Diu, et Franck Laloë. 2005. Quantum Mechanics. Vol. 1. Wiley-VCH.

Cole, Jarrett. 2020. « Negociating Code: The Decoding of Stuart Hall ». Winnsox.

Culler, Jonathan. 1976. Ferdinand de Saussure. Cornell University Press.

Culler, Jonathan. 2011. Literary theory: A very short introduction. Oxford University Press.

Dufays, Jean-Louis, Louis Gemenne, et Dominique Ledur. 2005. Pour une lecture littéraire. De Boeck Supérieur.

Eco, Umberto. 1976. « Peirce’s Notion of Interpretant ». MLN - Comparative Literature 91 (6). The Johns Hopkins University Press.

Erb, Maurice, Simon Ganahl, et Patrick Kilian. 2016. « Distant Reading and Discourse Analysis ». Le foucaldien 2 (juin):8. https://doi.org/10.16995/lefou.16.

Furlong, Anne. 1995. « Relevance Theory and Literary Interpretation ». Thèse de doctorat, University College London.

Gasparov, Mikhail. 2016. « Boris Yarkho’s works on literary theory ». Studia Metrica et Poetica 3 (2). https://doi.org/10.12697/smp.2016.3.2.05.

Glavanakova, Alexandra. 2020. « Reading Fiction in The Digital Age ». The Online Journal for Arts and Culture - Reading Modes in the Digital Age 20. Piron.

Gori, Marco, et Alberto Tesi. 1992. « On the Problem of Local Minima in Backpropagation ». IEEE Transactions on Pattern Analysis and Machine Intelligence 14 (1).

Hale-Stern, Kaila. 2018. « Marvel Movies Are a Universe of Terrible Fathers ». The Mary Sue. https://www.themarysue.com/marvel-bad-dads/.

Hall, Stuart. 1999. « Encoding/Decoding ». In The Cultural Studies Reader, édité par Simon During, 507‑17. Routledge.

Hayles, N. Katherine. 2019. « Can Computers Create Meaning? A Cyber/Bio/Semiotic Perspective ». Critical Inquiry 46. The University of Chicago.

Heidegger, Martin. 1962. Being and Time. Traduit par John Macquarrie et Edward Robinson. Blackwell.

Hutto, C. J., et Eric Gilbert. 2014. « VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text ». Association for the Advancement of Artificial Intelligence.

Iyyer, Mohit, Anupam Guha, Snigdha Chaturvedi, Jordan Boyd-Graber, et Hal Daumé III. 2016. « Feuding Families and Former Friends: Unsupervised Learning for Dynamic Fictional Relationships ». Proceedings of NAACL-HLT 2016, 1534‑44.

Lancashire, Ian, et Graeme Hirst. 2009. « Vocabulary Changes in Agatha Christie’s Mysteries as an Indication of Dementia: A Case Study ». 19th Annual Rotman Research Institute Conference, Cognitive Aging: Research and Practice.

Lvoff, Basil. 2021. « Distant Reading in Russian Formalism and Russian Formalism in Distant Reading ». Russian Literature 122-123:29‑65. https://doi.org/https://doi.org/10.1016/j.ruslit.2021.07.003.

Marche, Stephen. 2012. « Literature Is not Data: Against Digital Humanities ». Los Angeles Review of Books. 28 septembre 2012. https://lareviewofbooks.org/article/literature-is-not-data-against-digital-humanities/.

McGrath, Lynette. 1985. « Structural and Poetic Theory: Intention, Meaning and Privilege ». College English 47 (8). National Council of Teachers of English:809‑23.

Mikolov, Tomas, Kai Chen, Greg Corrado, et Jeffrey Dean. 2013. « Efficient Estimation of Word Representations in Vector Space ». arXiv. https://doi.org/10.48550/ARXIV.1301.3781.

Miller, Geoffrey D. 2010. « Intertextuality in Old Testament Research ». Currents in Biblical Research 9 (3):283‑309. https://doi.org/10.1177/1476993X09359455.

Nowviskie, Bethany Paige. 2004. « Speculative Computing: Instruments for Interpretive Scholarship ». University of Virginia.

Padnick, Steven. 2019. « How daddy issues drive the marvel cinematic universe ». Tor.com. https://www.tor.com/2018/06/13/how-daddy-issues-drive-the-marvel-cinematic-universe/.

Piper, Andrew. 2017. « Think Small: On Literary Modeling ». PMLA 132 (3):651‑58.

Piper, Andrew. 2018. Enumerations : Data and Literary Study. The University of Chicago Press.

Rockwell, Geoffrey, et Stefan Sinclair. 2016. Hermeneutica: Computer-Assisted Interpretation in the Humanities. MIT Press.

Saldler, Matthew, et Natasha Regan. 2019. Game Changer : AlphaZero’s Groundbreaking Chess Strategies and the Promise of AI. New In Chess.

Searle, John R. 1980. « Minds, brains, and programs ». The Behavioral and Brain Science 3:417‑57.

Snow, C. P. 1959. The Two Cultures and the Scientific Revolution. The Syndics of the Cambridge University Press.

Thiselton, Anthony C. 1992. New Horizons in Hermeneutics: The Theory and Practice of Transforming Biblical Reading. Zondervan Publishing House.

Todorov, Tzvetan. 1969. « Structural Analysis of Narrative ». Traduit par Arnold Weinstein. NOVEL: A Forum on Fiction 3 (1). Duke University Press:70‑76.

Tracey, Diane H., et Lesley Mandel Morrow. 2006. Lenses in Reading : An Introduction to Theories and Models. The Guilford Press.

Underwood, Ted. 2019. Distant Horizons - Digital Evidence and Literary Change. Chicago: The University of Chicago Press.

Weil, Simone. 1946. « Essai sur la notion de lecture ». Les Études philosophiques, Nouvelle Série 1 (1):13‑19.

Wendell, Inna Alekseyevna. 2021. « A Statistical Analysis of Genre Dynamics: Evolution of the Russian Five-Act Comedy in Verse in the Eighteenth and Nineteenth Centuries ». University of California.

Wiedemann, Gregor, et Cornelia Fedtke. 2021. « From Frequency Counts to Contextualized Word Embeddings: The Saussurean Turn in Automatic Content Analysis ». In Handbook of Computational Social Science, 2:366‑85. Routledge. https://doi.org/10.4324/9781003025245-25.

Il est difficile de totalement développer une théorie de la lecture sans se reposer sur une théorie de l’être humain (Furlong 1995).↩︎
L’approche contextuelle de la lecture voit le texte comme “un lieu de ‘productivité’ infinie” (Dufays, Gemenne, et Ledur 2005) et se positionne en opposition aux approches exégétique et immanente. ↩︎
Thiselton s’inquiète des modifications conscientes et inconscientes que les lecteurs appliquent aux évangiles à cause de leur parcours littéraire. Par exemple, la distance entre le paradigme littéraire auquel a été habitué le lecteur et la [texture?] littéraire de la Bible peut mener à des interprétations dangereuses (Thiselton 1992).↩︎
L’intratextualité est au coeur du modèle sémiotique du sens littéraire et sera développée plus en détails dans le chapitre II.↩︎
Dans les mois qui précédèrent le dépôt de ce mémoire, un ingénieur de Google fut licencié après qu’il ait décrété que l’algorithme conversationnel PaLM soit doté d’une âme. Nous ne nous prononcerons pas ici sur cette affaire.↩︎
Iarkho travaillait seul et à la main, en utilisant des méthodes statistiques ne nécessitant que du papier quadrillé et une règle (Lvoff 2021).↩︎
Cum hoc ergo propter hoc, corrélation n’est pas causalité.↩︎
“Measurement replaces charisma as the guiding vehicle of generalization. It difuses power, away from the persona (the proper name) and into a more dispersed array of technologies, techniques, and practices among which the individual is enmeshed (Latour).” (Piper 2017).↩︎
Par exemple, la vectorisation de mots est une conséquence du structuralisme en linguistique (Wiedemann et Fedtke 2021).↩︎