Cécile FRÉROT, Mojca PECMAN (dir.), Des corpus numériques à l’analyse linguistique en langues de spécialité – Publif@rum

Cécile FRÉROT et Mojca PECMAN (dir.), Des corpus numériques à l’analyse linguistique en langues de spécialité, Grenoble, UGA Éditions, 2021, pp. 376.

L’ouvrage Des corpus numériques à l’analyse linguistique en langues de spécialité, publié sous la direction de Cécile FRÉROT et de Mojca PECMAN, rassemble treize contributions articulées en trois parties, s’intéressant à des études menées sur l’analyse de corpus numériques, de données orales ou écrites, et sur les langues de spécialité de différents domaines. La multiplicité des approches et des applications qui concernent les langues de spécialité est traitée en réunissant des thématiques liées, d’un côté, à la constitution, l’annotation et l’exploitation de corpus et, de l’autre, aux analyses au niveau lexical, lexicologique, phraséologique, syntaxique et sémantique des textes et des discours spécialisés.

Le premier volet de l’ouvrage comprend quatre contributions qui sont consacrées à la « Constitution, annotation et exploitation de corpus en vue de la création de ressources exploitables ».

Frédéric LANDRAGIN (« Méthodologie pour la préparation d’une campagne d’annotation manuelle d’expressions référentielles », pp. 37-60) présente le travail d’annotation manuelle des expressions référentielles et de chaînes de référence dans le corpus du projet ANR DEMOCRAT. Les expérimentations d’annotation, la sélection des expressions à annoter et l’utilisation (ou non) d’un outil de traitement automatique des langues en tant que pré-annotateur font l’objet de cette contribution. Diffusé librement en ligne, ce corpus en français regroupe des textes écrits appartenant à plusieurs genres textuels et à différentes époques. Pendant les expérimentations, le choix d’un outil d’annotation, d’un schéma d’annotation et l’accord interannotateurs ont permis le développement de la recherche des expressions référentielles dans le corpus. Selon l’auteur, le fait d’identifier des stratégies d’annotation est un avantage pour ce qui concerne les différentes typologies d’annotations réalisées pour les expressions référentielles. En outre, l’usage d’un système TAL avec un rôle de pré-annotateur peut aider pour la détection automatique des expressions référentielles. Enfin, les expérimentations décrites clarifient la procédure complète d’annotation du corpus DEMOCRAT ouvrant des discussions avec les annotateurs et d’autres perspectives de recherche.

Dans leur article, Christophe PARISSE, Christophe BENZITOUN, Carole ÉTIENNE et Loïc LIÉGEOIS (« Agrégation automatisée de corpus de français parlé », pp.61-86) proposent une étude sur une méthodologie outillée, afin que les chercheurs puissent obtenir « un jeu de données structuré » dans « un format commun et interrogeable » (p.63) grâce à l’emploi d’un outil de textométrie, comme TXM. Réalisant une revue des principaux corpus oraux de langue française existants, les auteurs présentent la méthodologie utilisée pour constituer l’agrégation de corpus. En particulier, ils considèrent les avantages, mais aussi les inconvénients et les risques à prendre en compte lors d’une agrégation de ressources. Deux études linguistiques ont été réalisées sur un jeu de données dans le but d’illustrer les potentialités de l’agrégation de corpus : le projet ORFÉO (Outils et Recherches sur le Français Écrit et Oral) et le projet CRFC (Corpus de Référence du Français Contemporain). Des recherches sur l’emploi du format pivot TEI-CORPO comme outil de conversion de corpus et des logiciels CLAN, ELAN, Praat et Transcriber sont présentées de façon détaillée et technique. La dernière partie de la contribution se propose d’illustrer comment la méthodologie d’agrégation de corpus peut faciliter les recherches sur corpus dans le domaine des langues de spécialité.

Pour sa part, Anouchka DIVOUX (« Étudier les interactions verbales en milieu professionnel : aspects méthodologiques du recueil de données en réunion de travail », pp.87-106) se propose d’introduire les principes méthodologiques et éthiques liés à la recherche de terrain, choisis afin de garantir l’authenticité des données et leur impact sur la collecte et le traitement, en analysant les pratiques langagières de locuteurs en réunion de travail. La constitution d’un corpus d’oral au travail permet l’analyse linguistique des questions qui font l’objet de l’étude. L’auteure souligne l’importance de la familiarisation dans l’entreprise, la transcription et l’analyse des données recueillies pendant les différentes étapes de la recherche. Les données concernent le technolecte d’une filière spécialisée, les connaissances partagées des locuteurs et certaines dimensions de l’identité des locuteurs. Les deux extraits du corpus de recherche présentés remarquent la nécessité de la présence d’un technolecte spécifique afin d’accéder au lexique plus technique, et le rôle du chercheur sur son terrain qui recueillit aussi des données extralinguistiques indispensables à l’analyse sociolinguistique.

Dans sa contribution, Christian SURCOUF (« Le français oral quotidien, un objectif spécifique en FLE ? Retour sur les défis de la création d’un corpus de français parlé annoté à visée pédagogique », pp.107-133) se consacre à la compréhension orale du français parlé en FLE, considérant aussi les défis au niveau informatique, linguistique et pédagogique rencontrés pendant la constitution de la base de données FLORALE. Cette base de données de français parlé à visée pédagogique utilise des documentaires radiophoniques qui illustrent des traits langagiers caractéristiques du français parlé. L’interface-usager de cette base de données permet à l’apprenant d’avoir accès à la recherche et à l’écoute des exemples sonores authentiques des émissions radiophoniques transcrites, segmentées et annotées par le logiciel Elan. Grâce à ses caractéristiques informatiques et pédagogiques, la plateforme FLORALE pourrait être étendue aussi à l’enseignement du français parlé dans le contexte du Français sur Objectifs Spécifiques (FOS) afin de construire des corpus oraux exploitables à propos des discours de spécialité.

Le deuxième volet de l’ouvrage déplace l’attention vers les « Analyses lexicales, lexicologiques et phraséologiques des discours spécialisés » et il est constitué de quatre contributions.

Thierry NALLET et Sandrine ROL-ARANDJELOVIC (« La « langue-culture » de la COP₂₁ : autour d’un corpus de spécialité en espagnol », pp. 137-162), présentent une étude sur un corpus en espagnol composé de trois sous-corpus homogènes représentatifs de la langue de la COP₂₁ (2014-2017), en considérant des genres textuels tels que les documents officiels de l’ONU, les rapports produits par des ONG nationales et internationales, les articles de presse.

Izabella THOMAS et Anastasia GALMICHE (« Constitution d’un lexique terminologique trans-biomédical : expérimentations à partir de corpus, listes de vocabulaire et ressources spécialisées », pp.163-183), décrivent la méthodologie d’élaboration d’un lexique terminologique trans-biomédical, constituant des listes caractérisées par des lexies spécialisées et transversales à plusieurs sous-domaines du biomédical en anglais.

Jarukan JITWONGNAN (« Les adjectifs axiologiques dans les guides touristiques : une étude basée sur corpus », pp. 185-205) se penche sur les adjectifs axiologiques présents dans un corpus composé uniquement de deux ouvrages : le Guide du Routard Thaïlande (2015) et le Guide Gallimard Thaïlande (Chantraine, Demangeon & Nee, 2011). L’identification et la catégorisation des adjectifs axiologiques représentent les étapes principales de l’étude, afin d’accomplir le repérage des cibles de jugement de valeur positive ou négative et de mettre en évidence une série de stéréotypes sur la Thaïlande dans les guides touristiques francophones. La méthode semi-automatique d’identification des adjectifs axiologiques a impliqué les outils AnaText et Nooj afin de considérer le contexte linguistique dans le genre textuel des guides touristiques. En outre, les deux guides choisis sont divergents pour ce qui concerne le public cible, le registre de la langue et les informations proposées.

Beatriz SÁNCHEZ-CÁRDENAS et Cécile FRÉROT (« Vers un modèle d’analyse des verbes semi-spécialisés. Le cas de traiter/treat dans les domaines médical et environnemental », pp.207-237) se focalisent sur une étude approfondie du couple de verbes non spécialisés traiter pour le français et treat pour l’anglais, dans deux corpus médicaux et deux corpus environnementaux. Partant de la double dimension contrastive qui concerne les langues et les domaines de spécialité, l’étude est orientée vers le fonctionnement des verbes dans les textes spécialisés qui se différencient de la langue générale. L’analyse présentée des corpus permet d’isoler les éléments cadratifs qui participent aux concepts spécialisés, proposant un modèle inspiré de la sémantique des cadres, qui sert à représenter un foisonnement de données difficiles à modéliser. Enfin, dans chacun des quatre corpus explorés, les auteures ont extrait du contexte verbal les informations microtextuelles servant à définir chaque sens.

La troisième partie de l’ouvrage comprend cinq articles qui sont consacrés aux « Analyses syntaxiques et sémantiques des textes et des discours spécialisés ».

Dans leur contribution, Marine WAUQUIER, Cécile FABRE et Nabil HATHOUT (« Différenciation des noms d’action dérivés : le facteur de technicité étudié en corpus », pp.241-261), proposent une étude dont l’objectif est celui d’approfondir la question de la distinction sémantique des noms d’action en -age et -ion du français. À l’aide d’outils distributionnels et statistiques, les auteurs contribuent à l’étude comparative des noms en -age et en -ion qui se distinguent par leur niveau de technicité. S’insérant dans le domaine de la sémantique distributionnelle, cette étude associe les méthodes et les outils de la linguistique de corpus et du traitement automatique des langues afin d’approfondir la question de la spécialisation des noms dérivés en termes de technicité. Après avoir fourni une définition de technicité selon des critères considérés par les auteurs, une analyse statistique de la technicité des noms d’actions suffixés montre que les noms d’action en -age ont une plus grande technicité par rapport aux noms d’action en -ion qui ont une moindre technicité.

La recherche de Thi Thu Hoai TRAN et Rui YAN (« Utilisation d’un corpus spécialisé pour étudier les prépositions dans une perspective didactique », pp.263-283) s’inscrit au croisement de différentes disciplines, à savoir la linguistique de corpus, l’analyse du discours et la didactique du français sur objectif universitaire. Les auteures se proposent de montrer l’utilité et l’intérêt d’un enseignement/apprentissage basé sur corpus, afin de vérifier deux hypothèses : 1) si l’utilisation d’un corpus d’écrits scientifiques permet aux étudiants de « relever les régularités » (p. 264) dans l’emploi des constructions verbales avec les prépositions ; 2) si un apprentissage sur corpus peut contribuer au développement des compétences métalinguistiques des étudiants. Le corpus et la méthode d’analyse des verbes du lexique scientifique transdisciplinaire (LST) sont présentés et construits selon les principes de recherches menées en linguistique de corpus. Enfin, deux expérimentations menées auprès des étudiants étrangers sont présentées afin de tester les hypothèses formulées au début de la recherche.

Hélène LEDOUBLE (« Contextes et connaissances dans les discours de vulgarisation scientifique : dynamiques définitoires et problématiques cognitives », pp.285-312), se penche sur le processus de diffusion des connaissances dans un domaine de spécialité vers le grand public, considérant les contextes définitoires dans les discours de vulgarisation scientifique, en particulier la capacité du lectorat à reconstruire les connaissances liées au domaine de la « lutte intégrée » pour la protection des végétaux. Grâce à la constitution d’un double corpus, les contextes discursifs et leurs relations font l’objet de l’étude. En particulier, les procédés de vulgarisation en mesure de transmettre les connaissances scientifiques au lecteur, comme la simplification hiérarchique ou lexicale, sont pris en compte. En outre, une partie de la contribution est dédiée à la discussion sur les relations et la hiérarchie des connaissances dans la revue Phytoma, spécialisée en protection des plantes et dans les discours de presse choisis pour l’étude.

Anne CONDAMINES, Marie-Pierre ESCOUBAS-BENVENISTE et Silvia FEDERZONI (« Apport de la traduction dans l’analyse des marqueurs de relations conceptuelles. Une étude en corpus aligné français-italien », pp.313-336) proposent l’utilisation d’un corpus spécialisé aligné dans la perspective de construire un réseau conceptuel unique pour le français et l’italien. La contribution se focalise sur les marqueurs de relation d’hyperonymie et leur traduction, à travers la réalisation d’un corpus parallèle de type journalistique spécialisé, à savoir Le Monde diplomatique, et sa traduction en italien tirée du Manifesto. Pendant cette étude, une recherche des marqueurs dans le corpus de presse spécialisée a été effectuée à travers le logiciel TXM et l’alignement a permis de récupérer les équivalents dans les deux langues. Enfin, les phénomènes comme l’ajout et la suppression d’un marqueur ou d’informations métalinguistiques au moment de la traduction sont explorés et ils présentent un intérêt au niveau terminologique.

Dans la contribution qui clôt l’ouvrage, Philippe ROINÉ, Mylène BLASCO et Emmanuèle AURIAC-SLUSARCZYK (« Rôles et valeurs des emplois en « c’est » dans le corpus Philosophèmes », pp.337-360) explorent les différents emplois de « c’est » dans le corpus de discussions à visée philosophique, nommé corpus Philosophèmes, qui aborde l’usage de la langue spontanée dans un contexte scolaire sur des sujets différents, tels que l’amitié, l’amour et le pouvoir. L’étude présentée part de l’observation des faits de la langue afin de comprendre la « concomitance entre le dire et le penser » (p. 342) au sein d’une langue de spécialité exercée en atelier de philosophie. Les exemples issus du corpus Philosophèmes permettent de formuler des hypothèses sur l’utilisation et le genre de structures définitionnelles en « c’est » dans les discours des enfants à visée spécialisée. En particulier, les différents types d’emplois de « c’est » sont identifiés comme une « modalité de raisonnement logique sous-jacent » (p.356) des élèves pendant leurs discussions philosophiques.

[Gloria ZANELLA]