Traitement Automatique des Langues et style littéraire

Comment écrivent ces auteurs ?

Intérêt littéraire de cette question

Nous avons commencé par nous intéresser au style littéraire des auteurs de ces deux corpus. Avant d’analyser leurs idées, nous voulions comprendre comment ils structuraient leurs écrits. Bien que la notion de « style » soit difficile à définir, elle est pourtant autant au coeur de l’activité de critique que des débats actuels entre la critique papier et la critique numérique.

Tandis que les auteurs des journaux reprochent aux blogueurs.euses leur manque de rigueur, ces derniers, à l’inverse, revendiquent leur droit d’écrire différemment. Dans sa page de présentation, la plateforme Exeunt résume très bien les enjeux stylistiques que sous-tendent ces nouvelles formes de critiques numériques :

Exeunt believes in making beautifully written, experimental, fierce and longform writing about theatre available for free.

Pour Michael Billington en revanche, critique de longue date dans The Guardian, un blog ressemble davantage à une « lettre informelle » qu’à une véritable critique. Danielle Tarento, directrice du théâtre Chocolate Menier Factory à Londres, va même jusqu’à affirmer que ces blogueurs.ueuses ne sont pas de « réels écrivains » :

They do not have the intellectual background or historical background or time to know what they are writing about.

Quels moyens techniques utiliser pour y répondre ?

Nous nous sommes appuyés sur des travaux en linguistique computationnelle pour répondre à cette question. Cette discipline se situe à l’intersection de l’informatique, de la linguistique et de la statistique. Elle permet, entre autres, de modéliser des phénomènes de la langue naturelle grâce à des approches logiques. Nous avons pris pour point de départ les travaux de D.I Holmes qui définit le style comme un ensemble de variables mesurables qui participent à constituer « l’empreinte digitale » (fingerprint) d’un.e auteur.e.

Cette première piste de recherche consistait à examiner une série de caractéristiques stylistiques simples dans les deux corpus et de les comparer (nombre de mots / phrases par critique, les noms communs / verbes / adjectifs / les plus récurrents, la répartition des différents types de phrases, l’utilisation de la ponctuation, etc.).

Les résultats

Quelles conclusions ?

A première vue, il semble que l’utilisation des noms communs est relativement similaire d’un corpus à l’autre puisque les mêmes termes sont employés par les critiques professionnels que par les critiques amateurs. Deux exceptions significatives peuvent être notées cependant. Tandis que les journalistes emploient les noms « Year » et « Man » qui sont absents du top 15 des noms les plus récurrents parmi les blogueurs, ce sont les termes « Moment » et « Audience » qui n’apparaissent pas dans le classement journalistique. La présence du terme « Audience » laisse sous-entendre que les blogueurs prêtent une attention particulière au public. Pourrait-on y voir ici deux manières d’appréhender l’expérience du théâtre ? L’une qui serait plutôt rationnelle, tournée vers l’analyse du spectacle, et l’autre qui serait plus émotionnelle, davantage tournée vers les réactions de l’humain, ou du public ?

Machine Learning et étude de la structure des critiques

Comment les blogueurs.ueuses et les journalistes structurent-ils.elles leurs critiques ?

Intérêt littéraire de cette question

La seconde expérience portait sur l’analyse de la forme de la critique. Nous voulions comprendre comment l’argumentation d’une critique était structurée d’un corpus à l’autre. Pour cela, nous nous sommes appuyés sur l’essai How to Write About Theatre (2015) de Mark Fisher, critique dans le journal The Guardian, qui décrit les différentes catégories d’une critique (introduction, rédaction de l’intrigue, etc.). Nous avons ensuite passé plusieurs heures à étudier ces deux corpora afin d’obtenir une idée plus précise des thématiques que ces auteurs abordaient dans leur rédaction. Voici les différentes catégories que nous avons identifiées, et les couleurs que nous leur avons attribuées :

Nous avons ensuite annoté 1000 critiques du corpus I à la main en fonction de ce tableau. Cette étape consistait à sélectionner une critique au hasard et à changer la couleur du texte en fonction de la catégorie à laquelle il appartenait. Voici un exemple extrait des critiques rédigées pour la pièce de Sam Shepard, A Lie of the Mind (1985), qui a été représentée en mai 2017 au Southwark Playhouse Theatre de Londres. Cette critique a été rédigée le 11 mai 2017 par Fergus Morgan, critique dans le journal The Stage :

Critique originale

Critique annotée

Quels moyens techniques utilisés pour y répondre ?

Il fallait ensuite utiliser des techniques de Machine Learning (scikit-learn dans ce cas) pour entraîner l’algorithme à reconnaître ces catégories sur les textes non-annotés.. Le modèle demande encore à être amélioré et les résultats présentés ici manquent d’exactitude. Cependant, ils montrent déjà certaines tendances :

Les résultats

Quelles conclusions pouvons-nous en tirer ?

Si le débat dans le domaine artistique met en évidence les différences entre les journalistes et les blogueurs, ces expériences prouvent cependant qu’il y a en réalité bien plus de similitudes entre ces deux communautés que ce qu’elles veulent bien affirmer.

Chacune des 8 catégories que nous avions identifiées sont représentées dans les deux jeux de données, ce qui suggère que les journalistes comme les blogueurs.euses emploient des arguments similaires.

Il y a cependant bien des différences. Elles se situent à un niveau plus subtil entre les nombres. Lorsque nous regardons de plus près les pourcentages de chacune de ces catégories au sein des deux corpora, nous pouvons nous rendre compte que les blogueurs.ueuses ont tendance à se focaliser sur les catégories liées à l’affect. Les « Détails visuels et auditifs », la « Performance des acteurs » ainsi que les « remarques sur le public » sont tous des éléments qui mettent au premier plan la subjectivité du critique.

Pour le corpus I au contraire, c’est-à-dire pour la critique journalistique, les valeurs élevées en pourcentage concernent des catégories liées à des arguments de nature factuelle. Les « Analyses », l’ « Intrigue » et les remarques sur la « Structure de la pièce » s’appuient davantage sur des analyses rationnelles.

Pourrait-on y voir deux manières d’aborder la scène ? L’une factuelle, l’autre davantage émotionnelle ?

Pour télécharger l’article que nous avons publié sur ce sujet, c’est ici :

Article
Analyse de sentiments