Traitement Automatique des Langues et style littéraire

Comment écrivent ces auteurs ?

Intérêt littéraire de cette question

Nous avons commencé par nous intéresser au style littéraire des auteurs de ces deux corpus. Avant d’analyser leurs idées, nous voulions comprendre comment ils structuraient leurs écrits. Bien que la notion de « style » soit difficile à définir, elle est pourtant autant au coeur de l’activité de critique que des débats actuels entre la critique papier et la critique numérique.

Tandis que les auteurs des journaux reprochent aux blogueurs.euses leur manque de rigueur, ces derniers, à l’inverse, revendiquent leur droit d’écrire différemment. Dans sa page de présentation, la plateforme Exeunt résume très bien les enjeux stylistiques que sous-tendent ces nouvelles formes de critiques numériques :

Exeunt believes in making beautifully written, experimental, fierce and longform writing about theatre available for free.

Pour Michael Billington en revanche, critique de longue date dans The Guardian, un blog ressemble davantage à une « lettre informelle » qu’à une véritable critique. Danielle Tarento, directrice du théâtre Chocolate Menier Factory à Londres, va même jusqu’à affirmer que ces blogueurs.ueuses ne sont pas de « réels écrivains » :

They do not have the intellectual background or historical background or time to know what they are writing about.

Quels moyens techniques utiliser pour y répondre ?

Nous nous sommes appuyés sur des travaux en linguistique computationnelle pour répondre à cette question. Cette discipline se situe à l’intersection de l’informatique, de la linguistique et de la statistique. Elle permet, entre autres, de modéliser des phénomènes de la langue naturelle grâce à des approches logiques. Nous avons pris pour point de départ les travaux de D.I Holmes qui définit le style comme un ensemble de variables mesurables qui participent à constituer « l’empreinte digitale » (fingerprint) d’un.e auteur.e.

Cette première piste de recherche consistait à examiner une série de caractéristiques stylistiques simples dans les deux corpus et de les comparer (nombre de mots / phrases par critique, les noms communs / verbes / adjectifs / les plus récurrents, la répartition des différents types de phrases, l’utilisation de la ponctuation, etc.).

Les résultats

Quelles conclusions ?

1. Les 5 premiers noms les plus employés dans ces deux corpus semblent indiquer que ces deux communautés portent leur attention sur deux objets différents. Lorsque l’on regarde les deux premiers termes les plus récurrents, ils sont sensiblement similaires (« Production » et « Show » pour le corpus I – « Theatre » et « Show » pour le corpus II). Le troisième terme le plus employé par la critique journalistique révèle davantage d’informations quant à leur centre d’intérêt. Le mot « Stage » laisse supposer que ces critiques se focalisent davantage sur la scène., ou du moins, que leur regard se porte sur le spectacle, sur ce qui se passe devant eux. Lorsque l’on compare avec les mots les plus fréquents dans le corpus II, en troisième position vient un terme assez similaire aux deux précédents (« Theatre » – « Show » – « Production »). Le quatrième terme est en revanche plus intéressant. « Audience » sous-entend que le regard des critiques numériques porte en priorité sur ce qui se passe à côté deux, sur les spectateurs, et non ce qui se passe en face d’eux, c’est-à-dire sur la scène. Pourrait-on y voir ici deux manières d’appréhender l’expérience du théâtre ? L’une qui serait rationnelle, tournée vers l’analyse du spectacle, et l’autre qui serait plus émotionnelle, davantage tournée vers les réactions de l’humain, ou du public ?

2. La répartition de l’utilisation des pronoms personnels entre ces deux corpus semble confirmer la validité de cette piste hypothèse. C’est le deuxième graphe qui représente les disparités les plus importantes en terme de pourcentages entre ces deux bases de données. Alors que la première personne du singulier représente 10 % de l’utilisation totale des pronoms personnels dans le corpus I, sa présence est doublée dans le corpus II (20 %). Cela signifie que les blogueurs.ueuses emploient deux fois plus le pronom « I » ou « je » dans leurs critiques. Serait-ce la marque d’une subjectivité plus affirmée de la part de la critique numérique ?

Machine Learning et étude de la structure des critiques

Comment les blogueurs.ueuses et les journalistes structurent-ils.elles leurs critiques ?

Intérêt littéraire de cette question

La seconde expérience portait sur l’analyse de la forme de la critique. Nous voulions comprendre comment l’argumentation d’une critique était structurée d’un corpus à l’autre. Pour cela, nous nous sommes appuyés sur l’essai How to Write About Theatre (2015) de Mark Fisher, critique dans le journal The Guardian, qui décrit les différentes catégories d’une critique (introduction, rédaction de l’intrigue, etc.). Nous avons ensuite passé plusieurs heures à étudier ces deux corpora afin d’obtenir une idée plus précise des thématiques que ces auteurs abordaient dans leur rédaction. Voici les différentes catégories que nous avons identifiées, et les couleurs que nous leur avons attribuées :

Nous avons ensuite annoté 1000 critiques du corpus I à la main en fonction de ce tableau. Cette étape consistait à sélectionner une critique au hasard et à changer la couleur du texte en fonction de la catégorie à laquelle il appartenait. Voici un exemple extrait des critiques rédigées pour la pièce de Sam Shepard, A Lie of the Mind (1985), qui a été représentée en mai 2017 au Southwark Playhouse Theatre de Londres. Cette critique a été rédigée le 11 mai 2017 par Fergus Morgan, critique dans le journal The Stage :

Critique originale

Critique annotée

Quels moyens techniques utilisés pour y répondre ?

Il fallait ensuite utiliser des techniques de Machine Learning (scikit-learn dans ce cas) pour entraîner l’algorithme à reconnaître ces catégories sur les textes non-annotés.. Le modèle demande encore à être amélioré et les résultats présentés ici manquent d’exactitude. Cependant, ils montrent déjà certaines tendances :

Les résultats

Quelles conclusions pouvons-nous en tirer ?

Si le débat dans le domaine artistique met en évidence les différences entre les journalistes et les blogueurs, ces expériences prouvent cependant qu’il y a en réalité bien plus de similitudes entre ces deux communautés que ce qu’elles veulent bien affirmer.

Chacune des 8 catégories que nous avions identifiées sont représentées dans les deux jeux de données, ce qui suggère que les journalistes comme les blogueurs.euses emploient des arguments similaires.

Il y a cependant bien des différences. Elles se situent à un niveau plus subtil entre les nombres. Lorsque nous regardons de plus près les pourcentages de chacune de ces catégories au sein des deux corpora, nous pouvons nous rendre compte que les blogueurs.ueuses ont tendance à se focaliser sur les catégories liées à l’affect. Les « Détails visuels et auditifs », la « Performance des acteurs » ainsi que les « remarques sur le public » sont tous des éléments qui mettent au premier plan la subjectivité du critique.

Pour le corpus I au contraire, c’est-à-dire pour la critique journalistique, les valeurs élevées en pourcentage concernent des catégories liées à des arguments de nature factuelle. Les « Analyses », l’ « Intrigue » et les remarques sur la « Structure de la pièce » s’appuient davantage sur des analyses rationnelles.

Pourrait-on y voir deux manières d’aborder la scène ? L’une factuelle, l’autre davantage émotionnelle ?

Pour télécharger l’article que nous avons publié sur ce sujet, c’est ici :

Article
Analyse de sentiments