{"id":832,"date":"2023-06-04T19:08:48","date_gmt":"2023-06-04T17:08:48","guid":{"rendered":"http:\/\/www.farum.it\/lectures\/?p=832"},"modified":"2023-06-26T09:43:50","modified_gmt":"2023-06-26T07:43:50","slug":"damon-mayaffre-laurent-vanni-dir-lintelligence-artificielle-des-textes-des-algorithmes-a-linterpretation","status":"publish","type":"post","link":"http:\/\/www.farum.it\/lectures\/2023\/06\/04\/damon-mayaffre-laurent-vanni-dir-lintelligence-artificielle-des-textes-des-algorithmes-a-linterpretation\/","title":{"rendered":"Damon MAYAFFRE, Laurent VANNI (dir.), L\u2019intelligence artificielle des textes. Des algorithmes \u00e0 l\u2019interpr\u00e9tation"},"content":{"rendered":"\n<p>Damon MAYAFFRE, Laurent VANNI (dir.), <em>L\u2019intelligence artificielle des textes<\/em>. <em>Des algorithmes \u00e0 l\u2019interpr\u00e9tation<\/em>, Paris, Honor\u00e9 Champion, 2021, pp. 265<\/p>\n\n\n\n<p>Ce livre entend montrer comment l\u2019intelligence artificielle ouvre de nouvelles possibilit\u00e9s aux sciences du langage, notamment en analyse de corpus, tout en introduisant de nouveaux observables linguistiques.<\/p>\n\n\n\n<p>Les cinq chapitres qui composent l\u2019ouvrage permettent d\u2019aborder des questions th\u00e9oriques mais \u00e9galement l\u2019\u00e9tude de quelques cas sp\u00e9cifiques (litt\u00e9rature fran\u00e7aise et latine, discours politiques).<\/p>\n\n\n\n<p>Dans le premier chapitre, Laurent VANNI et Fr\u00e9d\u00e9ric PRECIOSO (pp. 15-72) introduisent la notion de <em>passage<\/em>, qui a \u00e9t\u00e9 th\u00e9oris\u00e9e par Fran\u00e7ois Rastier en 2007, en tant que nouvel observable de l\u2019analyse de donn\u00e9es textuelles (ADT) \u00e0 la place de la phrase. Il s\u2019agit de zones de textes suffisamment longues pour que la machine arrive \u00e0 les d\u00e9couper et \u00e0 \u00ab&nbsp;interpr\u00e9ter&nbsp;\u00bb correctement en raison de la pr\u00e9sence de corpus d\u2019entra\u00eenement suffisamment homog\u00e8nes et de marqueurs linguistiques pr\u00e9cis, qui lui permettent aussi de trouver ensuite des passages-cl\u00e9s. L\u2019utilisation de Word2Vec pour le \u00ab&nbsp;<em>word embidding&nbsp;<\/em>\u00bb \u00e0 la place de BERT permet la prise en compte des relations s\u00e9mantiques lors de la repr\u00e9sentation des mots et de leur \u00ab&nbsp;sens&nbsp;\u00bb, ce qui s\u2019est r\u00e9v\u00e9l\u00e9 particuli\u00e8rement efficace pour la repr\u00e9sentation des corpus concern\u00e9s.<\/p>\n\n\n\n<p>Si apr\u00e8s les travaux de Jacques Le Cun, la convolution est d\u00e9sormais un incontournable pour l\u2019apprentissage des r\u00e9seaux neuronaux, la \u00ab&nbsp;d\u00e9convolution&nbsp;\u00bb devient fondamentale, selon les auteurs de ce chapitre, pour trouver les saillances du texte analys\u00e9. C\u2019est cette \u00e9tape, en effet, qui permet de marquer les \u00e9l\u00e9ments les plus fr\u00e9quents du corpus, les marqueurs linguistiques, et donc de diff\u00e9rencier les auteurs et les styles des textes concern\u00e9s. Des param\u00e8tres ajust\u00e9s par la pond\u00e9ration de la d\u00e9convolution permettent d\u2019am\u00e9liorer les performances de la machine et de son analyse des textes sur plusieurs \u00e9l\u00e9ments \u00e0 la fois (forme graphique des mots, grammaire, lemmes). Cette architecture permet aux dispositifs d\u2019apprentissage profond d\u2019atteindre un degr\u00e9 d\u2019<em>accurancy<\/em> (pr\u00e9cision) de 100%. L\u2019utilisation de cette architecture permet \u00e0 la machine de distinguer les auteurs et de trouver les passages-cl\u00e9s des textes mais ce n\u2019est qu\u2019en utilisant \u00e9galement des mod\u00e8les statistiques traditionnels, lors du pr\u00e9-\u00e9diting afin d&#8217; \u00e9liminer les biais, que la machine peut \u00e9viter les interpr\u00e9tations fautives. Ce mod\u00e8le est donc hybride, puisqu\u2019il croise l\u2019approche d\u2019apprentissage profond avec l\u2019approche statistique traditionnelle utilis\u00e9e en linguistique de corpus. Le logiciel Hyperbase de l\u2019Universit\u00e9 de Nice est un exemple de ce type d\u2019approche.<\/p>\n\n\n\n<p>Le deuxi\u00e8me chapitre, sign\u00e9 par \u00c9tienne BRUNET, Ludovic LEBART et Laurent VANNI (pp. 73-130), montre l\u2019utilisation de l\u2019intelligence artificielle pour l\u2019analyse de corpus litt\u00e9raires. Il s\u2019ouvre par la comparaison entre les mesures classiques de la distance intertextuelle utilis\u00e9es pour distinguer les textes de deux auteurs diff\u00e9rents, ainsi que les m\u00e9thodes de repr\u00e9sentation du Tableau lexical entier (TLE) qui permet de classer hi\u00e9rarchiquement les fr\u00e9quences lexicales, et la nouvelle approche de l\u2019apprentissage profond qui permet de decoder l\u2019ADN du texte litt\u00e9raire. Les auteurs donnent l\u2019exemple d\u2019un corpus de 50 romans fran\u00e7ais du XX<sup>e<\/sup> si\u00e8cle et d\u2019un corpus du th\u00e9\u00e2tre classique pour montrer la pr\u00e9cision majeure que la d\u00e9marche d\u2019apprentissage profond permet d\u2019atteindre. \u00c0 travers la d\u00e9convolution, les r\u00e9sultats des analyses du corpus s\u2019am\u00e9liorent. Cela dit, la question de la compr\u00e9hension du fonctionnement des dispositifs d\u2019apprentissage profond reste ouverte. Si les auteurs privil\u00e9gient l\u2019approche supervis\u00e9e pour suivre en transparence le processus d\u2019apprentissage de la machine, ils s\u2019interrogent \u00e9galement sur ce que l\u2019approche non supervis\u00e9e pourrait donner comme r\u00e9sultat. \u00c0 ce propos, des tests montrent que cette approche peut \u00eatre compl\u00e9mentaire de l\u2019autre et que l\u2019analyse par de \u00ab&nbsp;multiples niveaux d\u2019abstraction&nbsp;\u00bb (p. 127) ne peut qu\u2019ajouter des \u00e9l\u00e9ments d\u2019int\u00e9r\u00eat \u00e0 la compr\u00e9hension plus g\u00e9n\u00e9rale des textes concern\u00e9s. Ainsi, non seulement les m\u00e9thodes statistiques traditionnelles et celles d\u2019apprentissage profond peuvent \u00eatre compl\u00e9mentaires, mais aussi l\u2019apprentissage supervis\u00e9 et l\u2019apprentissage non supervis\u00e9 peuvent l\u2019\u00eatre.<\/p>\n\n\n\n<p>Magali GUARESI et Damon MAYAFFRE (pp. 131-182) reviennent, dans le troisi\u00e8me chapitre du livre, sur les observables linguistiques (\u00ab&nbsp;motifs complexes, zones ou grandeurs textuelles \u00e0 d\u00e9finir, \u2018formes s\u00e9miotiquement saillantes\u2019&nbsp;\u00bb, p. 138) que les analystes peuvent d\u00e9celer lors de l\u2019utilisation de l\u2019intelligence artificielle. Les auteurs pr\u00e9sentent le cas de l\u2019analyse du discours politique (discours parlementaires et pr\u00e9sidentiels fran\u00e7ais). En red\u00e9couvrant l\u2019approche harrissienne \u00e0 c\u00f4t\u00e9 de celle de l\u2019analyse fran\u00e7aise du discours, les auteurs d\u00e9crivent \u00e0 l\u2019aide de la machine les textes de la gauche et de la droite fran\u00e7aise de 1958 \u00e0 2017 pour suivre l\u2019\u00e9volution du lexique et du discours mais \u00e9galement pour faire une comparaison avec les discours actuels du pr\u00e9sident Macron. Les choix faits par les analystes pr\u00e9alablement \u00e0 l\u2019analyse est de fixer le cotexte \u00e0 6 N-grammes, en \u00e9vitant donc la r\u00e9partition du texte en phrases, et de prendre en compte une dimension m\u00e9so de 100 mots (le passage) qui permettent \u00e0 la machine de d\u00e9tecter la pr\u00e9sence d\u2019un auteur ou d\u2019un genre discursif pr\u00e9cis. La prise en compte de l\u2019approche statistique traditionnelle et de l\u2019approche de la convolution et d\u00e9convolution de l\u2019apprentissage profond permet \u00e0 la machine de trouver les zones d\u2019activation des textes et d\u2019isoler les mots qui caract\u00e9risent les discours (par exemple \u00ab&nbsp;changement&nbsp;\u00bb comme mot de la gauche, mais aussi de De Gaulle), tout en suivant l\u2019\u00e9volution diachronique des discours politiques en lien avec le contexte historique (par exemple, les p\u00e9riodes de cohabitation politique ou les attentats de 2001). L\u2019analyse du discours macronien montre que l\u2019actuel pr\u00e9sident de la R\u00e9publique fran\u00e7aise a repris les mots de la gauche et de la droite fran\u00e7aise et que la machine peut tenir compte de la notion d\u2019intertexte, ce dernier \u00e9tant d\u00e9fini comme \u00ab&nbsp;<em>la condition de l\u2019interpr\u00e9tation de tout texte<\/em>&nbsp;\u00bb (p. 164, en italiques dans le texte). La machine formalise aussi les marqueurs linguistiques de l\u2019\u00ab&nbsp;ENAlangue&nbsp;\u00bb macronienne (p. 168) caract\u00e9ris\u00e9e, entre autres, par la pr\u00e9sence d\u2019un discours d\u2019\u00ab&nbsp;expertise&nbsp;\u00bb qui \u00ab&nbsp;d\u00e9gage une forme de fatalit\u00e9 (\u2026) la fatalit\u00e9 d\u2019une pens\u00e9e unique et d\u2019un discours pr\u00e9-construit, la fatalit\u00e9 d\u2019une m\u00e9canique \u00e9conomico-administrative ou gestionnaire que l\u2019on ne saurait changer&nbsp;\u00bb (p. 174). Les auteurs esquissent donc un programme des humanit\u00e9s num\u00e9riques o\u00f9 les mod\u00e8les convolutionnel et d\u00e9convolutionnel posent de nouveaux observables linguistiques, tout en interrogeant l\u2019id\u00e9ologie des discours actuels qui transforment la d\u00e9mocratie fran\u00e7aise actuelle en v\u00e9ritable logocratie.<\/p>\n\n\n\n<p>Dans le quatri\u00e8me chapitre, Dominique LONGR\u00c9E (pp. 183-201) analyse un corpus de textes latins pour chercher de nouveaux observables linguistiques, en posant la question de leur d\u00e9tection automatique. L\u2019auteur utilise le logiciel Hyperdeep pour analyser le 7<sup>e<\/sup> livre de la <em>Guerre des Gaules<\/em> de C\u00e9sar afin de trouver la pr\u00e9sence de motifs textuels. Le cas concern\u00e9 montre que le logiciel d\u2019apprentissage profond trouve des unit\u00e9s phras\u00e9ologiques et des motifs pr\u00e9cis qui renvoient \u00e0 des caract\u00e9ristiques linguistiques sp\u00e9cifiques et aussi que ces \u00ab&nbsp;motifs ne se marquent pas n\u00e9cessairement par des pics d\u2019activation tr\u00e8s haut, mais plut\u00f4t par des zones o\u00f9 les activations des trois couches du texte convergent vers des valeurs moyennes&nbsp;\u00bb (p. 201).<\/p>\n\n\n\n<p>Dans le dernier chapitre du livre, Fran\u00e7ois RASTIER (pp. 203-246) s\u2019interroge sur les diff\u00e9rences entre les deux notions qui fondent actuellement le \u00ab&nbsp;mythe de l\u2019IA&nbsp;\u00bb (p. 204)&nbsp;: les donn\u00e9es et les corpus, ces deux concepts ne pouvant pas se superposer de mani\u00e8re innocente. Selon l\u2019auteur, en effet, le \u00ab&nbsp;solutionnisme technologique&nbsp;\u00bb actuel, qui se fonde sur l\u2019utilitarisme et le pragmatisme de la r\u00e9volution industrielle du XVIII<sup>e<\/sup> si\u00e8cle, est une v\u00e9ritable techno-science qui finit par poser la technique comme une \u00e9vidence et une fin en soi, ce qui a permis aux scientifiques des donn\u00e9es de remplacer les linguistes et de confondre les corpus avec les donn\u00e9es. Par rapport justement \u00e0 ces derni\u00e8res, l\u2019auteur souligne que la notion de donn\u00e9e est une notion positiviste qui n\u2019a pas de contexte et qui peut se r\u00e9sumer en un signal informatique qui suppose un manque d\u2019interpr\u00e9tation, celle-ci \u00e9tant remplac\u00e9e plut\u00f4t par un calcul. La donn\u00e9e peut \u00eatre formalis\u00e9e par un symbole qui en permet le codage, mais le codage ne suppose pas l\u2019interpr\u00e9tation. L\u2019auteur souligne en outre que toute donn\u00e9e d\u00e9pend d\u2019un point de vue et qu\u2019elle n\u2019est donc pas neutre. Cela entra\u00eene de gros probl\u00e8mes lors de la g\u00e9n\u00e9ration des <em>big data<\/em> qui s\u2019appuient sur des sources non contr\u00f4l\u00e9es et sans supervision. Pour cela, il faut que \u00ab&nbsp;tout apprentissage soit supervis\u00e9&nbsp;\u00bb (p. 218). La quantit\u00e9 de l\u2019information ne devrait jamais \u00eatre pos\u00e9e comme fondamentale puisque le vrai probl\u00e8me ne concerne pas vraiment la disponibilit\u00e9 des donn\u00e9es mais plut\u00f4t leur pertinence. Si l\u2019on veut r\u00e9admettre l\u2019interpr\u00e9tation, il faut \u00e9galement que les donn\u00e9es soient \u00e9labor\u00e9es sous forme de corpus (donn\u00e9es qualifi\u00e9es, sourc\u00e9es, d\u00e9finies). En outre, souligne l\u2019auteur, \u00ab&nbsp;un texte ne se laisse pas d\u00e9couper en unit\u00e9s successives, comme on le ferait avec des paragraphes d\u2019un document&nbsp;\u00bb (p. 234) mais plut\u00f4t par des \u00ab&nbsp;grandeurs s\u00e9miotiques&nbsp;\u00bb, des \u00ab&nbsp;passages&nbsp;\u00bb qui permettent de restituer la complexit\u00e9 des textes.<\/p>\n\n\n\n<p>L\u2019auteur se positionne enfin par rapport \u00e0 l\u2019approche du <em>distant reading<\/em> de Franco Moretti qui par des outils souvent lexicom\u00e9triques finit par restituer des histogrammes des textes litt\u00e9raires sans poser de r\u00e9flexion critique.<\/p>\n\n\n\n<p>[Rachele RAUS]<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Damon MAYAFFRE, Laurent VANNI (dir.), L\u2019intelligence artificielle des textes. Des algorithmes \u00e0 l\u2019interpr\u00e9tation, Paris, Honor\u00e9 Champion, 2021, pp. 265 Ce livre entend montrer comment l\u2019intelligence artificielle ouvre de nouvelles possibilit\u00e9s aux sciences du langage, notamment en analyse de corpus, tout en introduisant de nouveaux observables linguistiques. Les cinq chapitres qui composent l\u2019ouvrage permettent d\u2019aborder des\u2026 <span class=\"read-more\"><a href=\"http:\/\/www.farum.it\/lectures\/2023\/06\/04\/damon-mayaffre-laurent-vanni-dir-lintelligence-artificielle-des-textes-des-algorithmes-a-linterpretation\/\">Leggi tutto &raquo;<\/a><\/span><\/p>\n","protected":false},"author":3,"featured_media":0,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[42],"tags":[],"class_list":["post-832","post","type-post","status-publish","format-standard","hentry","category-n-49"],"_links":{"self":[{"href":"http:\/\/www.farum.it\/lectures\/wp-json\/wp\/v2\/posts\/832"}],"collection":[{"href":"http:\/\/www.farum.it\/lectures\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.farum.it\/lectures\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.farum.it\/lectures\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"http:\/\/www.farum.it\/lectures\/wp-json\/wp\/v2\/comments?post=832"}],"version-history":[{"count":3,"href":"http:\/\/www.farum.it\/lectures\/wp-json\/wp\/v2\/posts\/832\/revisions"}],"predecessor-version":[{"id":858,"href":"http:\/\/www.farum.it\/lectures\/wp-json\/wp\/v2\/posts\/832\/revisions\/858"}],"wp:attachment":[{"href":"http:\/\/www.farum.it\/lectures\/wp-json\/wp\/v2\/media?parent=832"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.farum.it\/lectures\/wp-json\/wp\/v2\/categories?post=832"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.farum.it\/lectures\/wp-json\/wp\/v2\/tags?post=832"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}