Claudia CAGNINELLI, Corpus discursifs, hétérogénéité des données, hétérogénéité des méthodes

di | 5 Febbraio 2026

Claudia CAGNINELLI, Corpus discursifs, hétérogénéité des données, hétérogénéité des méthodes. Une approche méthodologique des variations intra- et intergénériques, TAB, Roma, 2025, 224 p.

L’ouvrage de Claudia Cagninelli, issu de son travail doctoral, propose une réflexion méthodologique approfondie sur l’analyse des variations discursives intra- et intergénériques dans le débat public français autour de la fin de vie. Le débat, datant de 2018-2019, avait été déclenché par la demande d’arrêt des traitements portée par l’équipe des soins palliatifs et par l’épouse de Vincent Lambert, infirmier psychiatrique tétraplégique et en état végétatif suite à un accident de la route, contre l’avis de ses parents. La forte médiatisation du cas par la presse nationale française et son retentissement sur les réseaux sociaux animent à l’époque un vif débat, caractérisé par une polarisation des positionnements discursifs. L’ouvrage se présente comme un accompagnement ponctuel du lectorat dans un parcours d’analyse du discours multidimensionnelle et outillée par des logiciels de textométrie. Le parcours de lecture suit donc plusieurs étapes : de la constitution du corpus à la formulation d’hypothèses en amont de l’annotation, puis de la vérification par les outils textométriques, qui permettent également d’identifier de nouvelles pistes de recherche et d’interprétation qualitative et contextualisée.

Le corpus est conçu comme à la fois « un dispositif et un objet d’analyse permettant d’aborder les variations intra- et intergénériques » dans un corpus plurigénérique, formé d’un sous-corpus d’articles de la presse nationale généraliste en ligne (Le MondeLe FigaroLibération et La Croix) et d’un corpus de tweets. Ces deux sous-corpus sont ultérieurement divisés pour rendre compte de leur hétérogénéité sémantique et énonciative : le corpus journalistique regroupe des articles d’information et des articles d’opinion, alors que le corpus de tweets comprend des tweets « simples », classés en tweets originaux, réponses et threads, afin de rendre compte des différentes pratiques technodiscursives. La question de l’hétérogénéité est au centre de l’ouvrage : hétérogénéité des données à qui implique nécessairement des « méthodes, des perspectives et des niveaux d’analyse » hétérogènes.

La première partie de l’ouvrage (chap. 1-3) est consacrée au cadrage théorique et méthodologique. L’auteure y définit le corpus comme une construction heuristique permettant de saisir les processus de production du sens en discours, et souligne l’apport épistémologique de la textométrie dans l’objectivation de l’analyse. Elle insiste sur la nécessité de dépasser l’opposition entre approches quantitatives et qualitatives en adoptant une démarche « multidimensionnelle combinée » (p. 88), fondée sur des allers-retours constants entre résultats statistiques et analyses en contexte. Dans le chapitre 3, consacré à la préparation du corpus, Cagninelli introduit une question pertinente, celle de la matérialité technolangagière des tweets et de leur mise en corpus. L’intégration des métadonnées dans le corpus permet d’intégrer cette matérialité dans la structure d’un corpus textuel, favorisant ainsi une démarche d’analyse écologique comme le préconise M.-A. Paveau dans Analyse du discours numérique (2017).

La deuxième partie (chap. 4-5) est dédiée à l’analyse du corpus. L’auteure expose les possibilités offertes par des logiciels tels qu’Iramuteq et TMX, en expliquant avec un langage clair et accessible les logiques et les fonctionnalités de ces différents outils. Dans l’analyse du discours journalistique (chap. IV), l’exploration globale repose sur des classifications hiérarchiques descendantes (CHD) et des analyses factorielles des correspondances (AFC) réalisées avec le logiciel Iramuteq ainsi que sur l’analyse des spécificités avec TMX. Ces analyses renforcent les hypothèses avancées lors de l’élaboration du corpus et matérialisées grâce à un niveau d’annotation (par exemple, une distance entre articles d’information et articles d’opinion) ; ces hypothèses seront ensuite vérifiées lors de l’analyse déductive et contextualisée des phénomènes discursifs locaux. Les analyses menées à l’aide des outils de textométrie suggèrent également des nouvelles pistes d’exploration qui pourront être prises en compte lors de l’analyse qualitative.

Le chapitre 5 est consacré à l’analyse du corpus de tweets « simples », en opposition aux tweets « augmentés » (Paveau, 2017) par des commentaires, des contenus plurisémiotiques ou d’autres formes technolangagières. Les tweets sont analysés selon une démarche en deux temps : d’abord, un passage relevant d’une « approche extractive outillée » (p. 149) ; ensuite, une analyse contextualisante d’ordre qualitatif. Dans le premier moment, l’auteure applique les mêmes démarches textométriques adoptées précédemment (CHD, AFC, calcul des spécificités) afin d’identifier les variations intragénériques entre tweets originaux, réponses et threads. L’analyse outillée de type écologique est corroborée sous cet angle par l’utilisation d’un logiciel spécialement conçu par l’auteure et développé avec l’aide d’un informaticien : le logiciel Visaneco (Cagninelli et Taglioli, 2022). Celui-ci permet de visualiser le texte du tweet (fenêtre de visualisation textuelle) et parallèlement sa forme globale (fenêtre de visualisation écologique). Ce choix montre l’intérêt d’utiliser des outils adaptés aux types de données, et souligne aussi la nécessité croissante, pour les linguistes, de développer des compétences technologiques.

Le bilan final démontre que les principaux positionnements discursifs ne peuvent être compris indépendamment des contraintes génériques, énonciatives et technodiscursives. À ce constat, l’ouvrage apporte une réponse concrète, en illustrant, étape par étape, une analyse du discours outillée qui intègre de manière efficace quantitatif et qualitatif.

[Stefano VICARI, Nora GATTIGLIA]