Mémoire 00 - Introduction

Introduction

PICARD: Splendid, Data. Splendid. You’re getting better and better.

DATA: Freeze program. Thank you, sir. I plan to study the performances of Olivier, Branagh, Shapiro, Kullnark

PICARD: Data, you’re here to learn about the human condition and there is no better way of doing that than by embracing Shakespeare. But you must discover it through your own performance, not by imitating others.

– Star Trek : The Next Generation, The Defector

L’interprétation littéraire se rapporte à des questions humaines qui tiennent généralement à distance les sciences formelles et leurs épistémès. Dans ce contexte, il devient difficile de justifier l’étude et l’interprétation d’objets culturels à partir de méthodes quantitatives et numériques. Les sciences humaines et la science littéraire s’intéressent à de tels objets à l’aide de méthodes quantitatives dont la force est décuplée par les outils numériques. La capacité de ces méthodes à générer des preuves, et donc à falsifier des hypothèses, donne même lieu à des pratiques qui cherchent à former une science littéraire. Mais la science littéraire, comme les Cultural Analytics, s’inscrit dans une recherche qui est au mieux adjacente au sens : le paradigme de la falsifiabilité n’est interprétatif qu’au sens où il discute de résultats (Ramsay 2011). Science n’est toutefois pas synonyme avec méthodes quantitatives ou numériques ; la modélisation est un aspect intégral de l’interprétation d’objets culturels (Moretti 2013). Dans le paradigme de la séparation humain-machine, l’interprétation littéraire a été fermement donné au domaine de l’humain ; mais ce paradigme romantique ou enfantin ne résiste pas à l’observation : la distance entre la machine et l’humain n’est pas une opposition. La mécanisation de la pensée est l’un des modes de production de la connaissance auquel nous avons accès : la logique (ou les mathématiques) ne demandent pas l’ordinateur pour générer une forme de sens, mais l’ordinateur facilite et accélère le calcul, et permet des opérations impossibles aux humains. Le calcul, comme la logique, est généralement reléguée à l’épistémè scientifique, bien que les études littéraires aient su en profiter historiquement [TODO : retrouver citation]. La computation est déjà un élément central de la recherche dans les départements de littérature (Underwood 2014), mais sa présence généralement assiste les tâches herméneutiques sans produire d’interprétation algorithmique. L’espoir d’un dialogue porteur de sens entre le texte, le chercheur, et la machine demande l’utilisation d’un cadre théorique où tombent les frontières entre ces trois éléments. Cette recontextualisation de la relation triple comme des aspects complémentaires (ou fonctions) d’un même domaine est fondamentale pour la possibilité de dériver du sens interprétatif algorithmique. En ce sens, ce mémoire s’éloigne de la recherche numérique textuelle mainstream ; si les ouvrages de Franco Moretti (Distant Reading), Ted Underwood (Distant Horizons) et Matthew Jockers (Macroanalysis) ont su transformer des corpus en bases de données et y découvrir des connaissances importantes et pertinentes, leurs résultats sont d’abord d’ordre culturel, historiques ou linguistiques plutôt qu’interprétatifs. Ces études qui s’inscrivent dans le domaine des Cultural Analytics alors que le présent texte ne se soucie pas de la culture, de l’histoire, des catégories humaines, du temps, de la langue ou de l’auteurité, mais plutôt de l’herméneutique. Cet autre sous-champ des humanités numériques, le Digital Criticism, discuté dans d’autres ouvrages et articles tels que Reading Machines (Ramsay 2011), Alien Reading (Binder 2016) et Hermeneutica (Rockwell et Sinclair 2016) ouvre la porte à de nouvelles formes interprétatives extérieures à nos paradigmes actuels. L’herméneutique littéraire numérique ne doit pas devenir un outil de reconnaissance de notre humanité par la création de frontières, mais plutôt une source d’intuition ou de révélation en dehors de nos registres actuels. Le numérique permet déjà de découvrir des connaissances dans des bases de données dont les structures nous échappent (Fayyad, Piatetsky-Shapiro, et Smyth 1996), si des aspects de la littérature nous échappe également, la traiter comme une base de données (ou plutôt à l’aide d’outils dont l’objet est la donnée) à le potentiel de nous révéler de nouvelles formes de connaissances qui soit autre, étrangère ou alien.

Multiples contextes

La longue histoire de l’utilisation de méthodes quantitatives dans le domaine littéraire marque l’importance du dénombrement, de la position textuelle et des répétitions de motifs dans la recherche textuelle. Par exemple, les index et les répertoires de concordances sont dès le Moyen ge des outils importants pour l’exégèse et herméneutique (Milic 1967). Dès la fin du XIXe siècle, des efforts furent déployés entre autres par les formalistes et les structuralistes pour répliquer certains succès du scientisme dans les domaines artistiques (voir (Hennequin 1888 ; Barthes 1981))¹. Le structuralisme et le formalisme ont tous deux perdu de leur popularité au cours du dernier siècle, mais leurs effets à long terme sur le paysage littéraire et philosophique démontrent la force de ces premiers modèles qui cherchaient à imiter les succès de la science en approchant la littérature formellement [TODO : trouver citation ou modifier/enlever]. L’avènement de l’ordinateur déclencha une révolution dans l’étude textuelle menée par Roberto Busa et son Index Thomisticus (Busa 1980), un outil numérique de découverte des concordances dans l’oeuvre de Saint-Thomas d’Aquin. Suivent ensuite plusieurs succès numériques, par exemple en stylométrie avec l’attribution des auteurs des Federalist Papers (Mosteller et Wallace 1963), et l’expansion des éditions numériques (Earhart 2012). Ces premiers projets ont en commun qu’ils se basent sur des expériences réalisables par des humains… si un temps suffisant leur était accordé. Aujourd’hui, la numérisation des corpus, la puissance de calcul disponible, et des algorithmes sophistiqués rendent possibles de nouvelles formes de recherche algorithmique. En parallèle, le regain d’intérêt académique de la dernière décennie pour les humanités numériques, les avancées en linguistique computationnelle, et les études post-humanistes offrent de nouveaux outils numériques et cadres épistémologiques pour l’étude textuelle numérique. Par exemple, l’opportunité d’analyser plusieurs milliers de textes à la fois permet d’effectuer des expériences sur des genres littéraires, des époques où plusieurs corpus nationaux à la fois (Moretti 2013 ; Underwood 2019). Distant reading est l’expression consacrée pour ce type d’études à très grande échelle et trouve son origine dans un article écrit par Franco Moretti (Moretti 2000) ; Conjectures on World Literature.

Le projet littéraire

Le projet littéraire n’est pas trivial à justifier ; il résiste au paradigme néolibéral de mercantilisation de la connaissance et à l’épistémè dominant du scientisme. Si le refus du besoin d’autojustification est monnaie courante chez les littéraires, une polyphonie d’explications s’ajoutent à la contextualisation de l’étude de la littérature dans la société où elle a lieu. Le milieu académique littéraire n’existe pas malgré ces multiples visions compétitives (qui parfois s’excluent mutuellement), mais grâce à ces dernières ; la réévaluation constante de ses fondements fait partie intégrante du domaine (Culler 2011 ; Hutchinson 2018). La centralité de la fiction dans les sociétés humaines, et l’importance du texte et de l’écriture ne sont pas à réévaluer ; il convient alors d’étudier ces aspects de l’être humain (Culler 2011). Après, les méthodes herméneutiques divergent, mais généralement l’interprétation et l’analyse textuelle s’ensuit, ou encore la création de nouvelles formes interprétatives ou d’analyse. Fonctionnellement, la pratique littéraire outrepasse grandement l’étude de la poésie, de la fiction et du texte (un concept dont la définition ne cesse de s’élargir). L’herméneutique littéraire est au centre de ce mémoire, mais dans un contexte numérique, des définitions s’imposeront. Le projet littéraire pour lequel le sens et l’interprétation priment est lui-même le sujet de débats constants ; la forme de ces discussions nous indique ce sur quoi les littéraires mettent une importance capitale. La centralité du texte est supplémentée par des modèles, connaissances ou intuitions pluridisciplinaires² qui interagissent pour maintenir une discussion de plus en plus sophistiquée sur les objets littéraires et ce qu’ils représentent. C’est donc sans surprise que le concept d’interprétation littéraire soit difficile à formaliser, de même qu’il est virtuellement impossible de générer un consensus sur ce qui constitue une telle chose. Il est toutefois possible de dire que les buts de l’interprétation littéraire existe sur un spectre où se trouve d’un côté une interprétation absolue (similaire à celle que se propose de faire l’interprétation juridique), et de l’autre l’interprétation subjective (pour laquelle le sens est une fonction de l’être pensant qui est en contact avec le texte) (Peter Szondi, s. d.). L’interprétation littéraire est plus ou moins codifiée ; plusieurs formes d’interprétation coexistent, et plusieurs interprétations peuvent se superposer pour un même système interprétatif. La promesse de l’analyse textuelle numérique a longtemps été celle d’une lecture absolue, une promesse contre laquelle le domaine littéraire s’est rebellé : la pression pour que l’interprétation reste un outil de questionnement plutôt que de réponse vient des fondements même de ce domaine mutable et pluriel.

Des chiffres et des lettres

Dans The Two Cultures and the Scientific Revolution, C. P. Snow décrivait le gap entre les communautés scientifiques et littéraires (Snow 1959) ; un paradigme de séparation artificielle de deux épistémès dont l’origine remonte aux romantiques qui séparèrent le domaine l’humain pour le protéger du scientisme (Binder 2020). Les humanités numériques s’inscrivent dans une volonté de réunification des républiques du physique et de l’esprit, portée par la compréhension de l’artificialité de cette fragmentation et les développements des dernières années en sciences humaines et sociales (Binder 2020). Le rapprochement entre les deux cultures prend plusieurs formes ; par exemple, les Cultural Analytics : l’utilisation de méthodes quantitatives et cadres épistémologiques tirées des sciences et de la statistique sur des objets culturels ou données sur les sociétés humaines. Cette récupération du mode scientifique dans le cadre de textes littéraires permet aux humanistes de poser des questions aux réponses claires ; soit en posant des hypothèses falsifiables, en implémentant un protocole de recherche rigoureux et en analysant les résultats de leurs expériences. Effectivement, la majorité des projets littéraires numériques ne sont pas littéraires, mais historiques, linguistiques, ou stylistiques (Moretti 2013 ; Underwood 2019 ; Jockers 2013). D’autres types de projet utilisent des outils computationnels pour générer de nouvelles formes de représentations des objets culturels ; par exemple, l’édition numérique permet d’augmenter le texte, de le réduire sélectivement, ou d’attirer l’attention du lecteur vers certains passages, motifs ou autre aspect selon des règles précises et paramétrables (Earhart 2012). L’édition, comme toute transformation téléologique, est productrice de sens ; les transformations numériques automatiques (dont les paramètres sont changés par le texte étudié ou par l’utilisateur) peuvent avoir des conséquences inattendues sur le sens de l’oeuvre (McLuhan 1964) - [Cette citation est-elle suffisante?]. Le médium numérique, par son agencement propre et son réagencement (éditorial, involontaire, ou automatique) des textes, est porteur de sens–les humanistes se doivent de rester suspicieux des Black Box (Underwood 2014). Le médium numérique est structurellement porteur de sens et les humanistes doivent rester suspicieux des mécanismes cachés qui offrent des résultats rapides (Black Box (Underwood 2014)) : un regard critique sur la technologie et sur les textes qui sont représentés de par celle-ci n’est possible qu’en connaissant les règles algorithmiques qui produisent les résultats analysés. L’arrivée du nombre dans la recherche en sciences humaines et dans les lettres est à la fois un champ de bataille épistémologique et une réconciliation (Piper 2018 ; Binder 2020), résultats de la lente convergence entre la phrase et l’équation. Si les sciences humaines ont embrassé les statistiques et les arts visuels la technologie, pourquoi la littérature offre-t-elle plus de résistance à l’intégration d’outils numériques dans son étude des textes littéraires (Jannidis 2020)? Le cadre théorique nécessaire à une herméneutique littéraire numérique et à la recherche algorithmique en littérature est lent à être produit et à être adopté, mais ce processus est bien enclenché (Piper 2018). Toutefois, la majorité de ces études ne sont pas littéraires au sens propre ; elle n’est pas du registre du Digital Criticism, mais bien des Cultural Analytics (Underwood 2019 ; Jockers 2013 ; Moretti 2013). Le leap of faith conceptuel que demande une interprétation textuelle littéraire est plus grand que celui des Cultural Analytics ; notre quête demande une approche mi-phénoménologique, mi-naïve de la lecture et une ouverture de la notion d’interprétation.

Barthes, Roland. 1981. « Introduction à l’analyse structurale des récits ». In Communications, 8 : L’analyse structurale du récit, 7‑33.

Binder, Jeffrey M. 2016. Debates in the Digital Humanities. University of Minnesota Press. http://www.jstor.org/stable/10.5749/j.ctt1cn6thb.

Binder, Jeffrey M. 2020. « Romantic Disciplinarity and the Rise of the Algorithm ». Critical Inquiry 46 (4).

Busa, Roberto. 1980. « The Annals of Humanities Computing: The Index Thomiscus ». Computers and the Humanities. North-Holland Publishing Company, 83‑90.

Culler, Jonathan. 2011. Literary Theory: A Very Short Introduction. Oxford University Press.

Earhart, Amy. 2012. « The Digital Edition and Digital Humanities. ». Textual Cultures: Texts, Context, Interpretation 7 (1):18‑28.

Fayyad, Usama, Gregory Piatetsky-Shapiro, et Padhraic Smyth. 1996. « From Data Mining to Knowledge Discovery in Databases ». AI Magazine 17 (3):37. https://doi.org/10.1609/aimag.v17i3.1230.

Hennequin, Emile. 1888. La critique scientifique. Libr. Académique Didier.

Hutchinson, Ben. 2018. Comparative Literature: A Very Short Introduction. Oxford University Press.

Jannidis, Fotis. 2020. « On the perceived complexity of literature. A response to Nan Z. Da ». Journal of Cultural Analytics. https://doi.org/10.22148/001c.11829.

Jockers, Matthew L. 2013. Macroanalysis. University of Illinois Press.

McLuhan, Marshall. 1964. Understanding Media: The Extensions of Man. McGraw-Hill.

Milic, Louis T. 1967. « Winged words: Varieties of computer application to literature ». Computers and the Humanities 2:24‑31.

Moretti, Franco. 2000. « Conjectures on World Literature ». new left review 1:54‑68.

Moretti, Franco. 2013. Distant Reading. New York: Verso.

Mosteller, Frederick, et David L. Wallace. 1963. « Inference in an Authorship Problem ». Journal of the American Statistical Association 58 (302). Taylor & Francis, Ltd.:275‑309.

Peter Szondi, Timothy Bahti. s. d. « Introduction to Literary Hermeneutics ». New Literary History 10 (1). The Johns Hopkins University Press:17‑29.

Piper, Andrew. 2018. Enumerations : Data and Literary Study. The University of Chicago Press.

Ramsay, Stephen. 2011. Reading Machines. Champaign: University of Illinois Press.

Rockwell, Geoffrey, et Stefan Sinclair. 2016. Hermeneutica: Computer-Assisted Interpretation in the Humanities. MIT Press.

Snow, C. P. 1959. The Two Cultures and the Scientific Revolution. The Syndics of the Cambridge University Press.

Tracey, Diane H., et Lesley Mandel Morrow. 2006. Lenses in Reading : An Introduction to Theories and Models. The Guilford Press.

Underwood, Ted. 2014. « Theorizing Research Practices We Forgot to Theorize Twenty Years Ago ». Representations 127 (1):64‑72.

Underwood, Ted. 2019. Distant Horizons - Digital Evidence and Literary Change. Chicago: The University of Chicago Press.

Parmi ces tentatives de formalisation littéraire se trouvent les outils d’analyse proposés dans une édition spéciale de Communications dirigée par Roland Barthes : L’analyse structurale du récit. Neuf auteurs y proposent des représentations visuelles, des formes de diagrammes et des formules quasi-mathématiques, autant de modèles qui attestent d’une volonté forte pour une nouvelle science littéraire. Les succès de ces méthodes furent mitigés, tant pour leurs difficultés à modéliser les textes que dans leur utilisation limitée dans les cercles littéraires.↩︎
La littérature est un domaine toujours qui, même lorsque son étude est à son plus “pur”, tire ses racines dans des questions d’ordre philosophique ou esthétique. Les outils d’analyse de la littérature offrent un panorama de techniques et de théories tirées de toutes les sciences sociales et humaines (Tracey et Morrow 2006).↩︎