Data Mining et IA au service de la détection automatique du discours haineux sur Internet
Comment améliorer la détection de propos haineux en tenant compte de l’hétérogénéité de la langue ? Comment exploiter le potentiel de la Data Mining et de l’IA pour décrire les phénomènes linguistiques spécifiques au discours haineux ?
Dans le cadre de mon projet de fin de Master 2 (TAL-IL DEFI, Université Paris Nanterre), j’ai contribué à l’étude des « Registres de langue et discours haineux sur internet ». Cette étude visait plus spécifiquement à décrire en vue de les détecter automatiquement des propos “haineux” d’extrême droite au sein de textes publiés en français sur le Web, en tenant compte des types de registre de langue (familier, courant, soutenu) dans lesquels ils peuvent s’inscrire. Ce projet, qui s’est déroulé pendant cinq mois, a nécessité de se positionner de manière précise par rapport à différentes notions : « extrême droite » (nous nous sommes appuyés sur Camus, 2020), « haine » (en référence à la Loi Avia, 2019), « discours haineux » (nous avons choisi de retenir la définition venant de Twitter) et « registre de langue » (en partant de Mekki et al., 2018).
Ce travail a mené à la constitution d’un corpus de type « haineux » composé à partir de sources et de genres diversifiés (littérature, essai, presse, discours politique, commentaire, forum, tweet) et potentiellement associés à des registres différents : familier (F), courant (C), soutenu (S). Le corpus a été récolté automatiquement et vérifié manuellement. Il compte 893 extraits exclusivement haineux comportant en moyenne quatre phrases pour chaque extrait.
Nous avons effectué une annotation en multi-labels. Chaque extrait peut en effet contenir plusieurs registres dans des proportions différentes. Des descripteurs linguistiques répartis par niveau d’analyse linguistique (Mekki et al., 2017) nous ont guidés durant l’annotation pour établir le degré d’appartenance d’un extrait à un registre. Enfin, une partie du corpus (graine) a été annotée manuellement et équilibré pour obtenir 100 extraits par registre. Cette graine sert à deux objectifs principaux : 1. extraire les motifs séquentiels émergents (Agrawal et al., 1995) spécifiques au discours haineux et propres aux registres considérés, 2. intégrer à la graine de nouveaux textes non annotés via une méthode d’auto-apprentissage semi-supervisé (Mekki et al., 2020).
L’extraction de motifs séquentiels émergents est faite à partir d’une base de données séquentielles où chaque phrase constitue une séquence et où chaque mot est représenté par un ensemble de traits linguistiques (sa forme fléchie, son lemme, sa catégorie grammaticale et sa fonction syntaxique). Cette extraction fait émerger un nombre de séquences par registre (F : 226, C : 301, S : 361). La comparaison croisée de ces séquences montre que nous obtenons le plus de motifs émergents lorsqu’on compare S à F. En revanche, la comparaison C à S est la moins productive. Parmi les motifs émergents de type haineux, nous relevons la séquence [NOM+de] correspondante par exemple aux réalisations « bande de », « gueule de » ; ou encore les trois points de suspension employés comme dispositifs de réticence ou d’autocensure comme dans « on peut rire de tout sauf sur les j… ».
L’intégration par auto-apprentissage de nouveaux textes a été effectuée sur des ensembles de caractéristiques linguistiques (E1 : linguistiques, E2 : word embeddings, E3 : E1+E2) extraites au préalable sur l’ensemble du corpus. L’estimation se déroule selon la méthode de validation croisée en 3 échantillons. Le monitorage du taux d’erreurs (MSE) lors de l’apprentissage montre une courbe décroissante qui passe de 0.15 à 0.05 pour l’ensemble E1. Sur les autres ensembles cette courbe montre une diminution du taux d’erreur qui cependant augmente lorsqu’on effectue le test d’évaluation sur l’échantillon de validation. Ce résultat présente une marge d’amélioration qui peut être comblée, entre autres, en augmentant la taille de la graine.
Ce travail exploratoire participe du projet ANR Astrid 2020-2022 appelé FLYER. Il a été réalisé par Sandy DUCHEMIN, Aude JULIEN, Joy DEVINE et moi-même, et dirigé par nos encadrantes du laboratoire MoDyCo (UMR 7114 CNRS Université Paris Nanterre) Delphine BATTISTELLI, Jade MEKKI et Aline ETIENNE que nous tenons à remercier, ainsi que Mondeca pour avoir donné de la visibilité à ce projet.
Agrawal R., Srikant R. (1995). « Mining sequential patterns ».
Camus J. Y., « Extrême droite », Encyclopædia Universalis [en ligne], consulté le 28 mars 2020. URL : http://www.universalis.fr/encyclopedie/extreme-droite/
Mekki J., Béchet N., Lecorvé G., Battistelli D. (2020). « Corpus annoté automatiquement en proportions de registres de langue pour le français », en cours de soumission.
Mekki J., Battistelli D., Lecorvé G., Béchet N. (2018). « Identification de descripteurs pour la caractérisation de registres ».
Mekki J., Battistelli D., Béchet N., Lecorvé G. (2017). « “Nous nous arrachâmes promptement avec ma caisse” : quels descripteurs linguistiques caractérisent les registres de langue ? ».