Vue d’ensemble de la littérature scientifique sur la classification multi-étiquette Tsoumakas, G., & Katakis, I. (2007). Multi-label classification: An overview. International Journal of Data Warehousing and Mining

Publié par Dr sc Olivier Dufour le

Article traduit en français:
Vue d’ensemble de la classification multi-étiquette. Journal International du Stockage et de l’Exploitation de Données
Tsoumakas, G., & Katakis, I. (2007).
Fichiers sources:
.tex, .pdf, .bib
https://drive.google.com/file/d/1oXh2eXH90CouwgsAB4scAnWhZV5O0-XU/view?usp=sharing

Article original en anglais:
Tsoumakas, G., & Katakis, I. (2007). Multi-label classification: An overview. International Journal of Data Warehousing and Mining (IJDWM), 3(3), 1-13. 10.4018/jdwm.2007070101
https://www.researchgate.net/publication/273859036_Multi-Label_Classification_An_Overview
https://www.semanticscholar.org/paper/Multi-Label-Classification%3A-An-Overview-Tsoumakas-Katakis/a6ccfe1ac31444fb5a0d32b58182e0fb1b17c0e4
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.104.9401

@article{tsoumakas2007multi,
title={Multi-label classification: An overview},
author={Tsoumakas, Grigorios and Katakis, Ioannis},
journal={International Journal of Data Warehousing and Mining (IJDWM)},
volume={3},
number={3},
pages={1–13},
year={2007},
publisher={IGI Global}
}

00:00 Rappel
01:37 Introduction
05:10 Tâches connexes
07:59 Méthodes de classification multi-étiquette
08:50 Méthodes par transformation du problème
15:20 Méthodes par adaptation algorithmique
24:36 Enjeux
24:38 À quel point un ensemble de données est-il multi-étiquette ?
26:33 Métriques d’évaluation
28:33 Comparaison expérimentale des méthodes par transformation du problème
33:09 Conclusions et travaux à venir

Vue d’ensemble de la littérature scientifique sur la classification multi-étiquette Tsoumakas, G., & Katakis, I. (2007). Multi-label classification: An overview. International Journal of Data Warehousing and Mining

Introduction.

La classification traditionnelle mono-étiquette concerne l’apprentissage à partir d’un ensemble d’exemples qui sont associés à une seule étiquette l à partir d’un ensemble d’étiquettes disjointes L, avec |L| supérieur à 1.
Si |L| = 2, alors le problème d’apprentissage est appelé problème de classification binaire (ou filtrage dans le cas de données textuelles ou web), tandis que si |L| supérieur à 2, alors on parle de problème de classification multi-classe.

Dans la classification multi-étiquette, les exemples sont associés à un ensemble d’étiquettes Y, inclus dans L.
Dans le passé, la classification multi-étiquette était principalement motivée par les tâches de catégorisation de textes et de diagnostic médical.
Les documents texte appartiennent généralement à plus d’une classe conceptuelle.
Par exemple, un article de journal concernant les réactions de l’église chrétienne à la sortie du film Da Vinci Code peut être classé dans les deux catégories « Société-Religion » et « Arts-Films ».
De même, dans le diagnostic médical, un patient peut souffrir par exemple de diabète et d’un cancer de la prostate en même temps.

De nos jours, nous remarquons que les méthodes de classification multi-étiquette sont de plus en plus requises par les applications modernes, telles que la classification des fonctions des protéines, la catégorisation musicale et la classification sémantique des scènes.
Dans la classification sémantique des scènes, une photographie peut appartenir à plusieurs classes conceptuelles, par exemple « couchers de soleil » et « plages » en même temps.
De même, dans la catégorisation musicale, une chanson peut appartenir à plus d’un genre.
Par exemple, plusieurs chansons à succès du groupe de rock populaire « Scorpions » peuvent être qualifiées à la fois de « rock » et de « ballade ».

Cet article vise à servir de point de départ et de référence pour les chercheurs intéressés par la classification multi-étiquette.
Les principales contributions sont : a) une présentation structurée de la littérature éparse sur les méthodes de classification multi-étiquette avec des commentaires sur leurs forces et faiblesses relatives et si possible l’abstraction de méthodes spécifiques à des schémas plus généraux et donc plus utiles, b) l’introduction d’une méthode multi-étiquette non documentée , c) la définition d’un concept pour la quantification du caractère multi-étiquette d’un ensemble de données, d) des résultats expérimentaux comparatifs préliminaires sur les performances de certaines méthodes multi-étiquette.

Le reste du présent article est organisé comme suit.
La section suivante traite des tâches liées à la classification multi-étiquette.
Suit ensuite une présentation organisée des méthodes de classification multi-étiquette.
La section d’après introduit le concept de densité d’étiquettes et présente les métriques qui ont été proposées dans le passé pour l’évaluation des classificateurs multi-étiquette.
La section d’encore après présente les expériences comparatives et discute des résultats, tandis que la section de conclusion résume ce travail et indique les directions de recherche futures.

Tâches connexes.

Une tâche qui appartient à la famille générale de l’apprentissage supervisé et qui est très concernée par la classification multi-étiquette, c’est la tâche de « classement ».
En « classement », la tâche consiste à ordonner un ensemble d’étiquettes L, de sorte que les étiquettes les plus élevées soient davantage liées à un nouvel exemple.
Il existe un certain nombre de méthodes de classification multi-étiquette qui apprennent une fonction de classement à partir de données multi-étiquette.
Cependant, un classement des étiquettes nécessite un post-traitement afin de donner un ensemble d’étiquettes, qui est une sortie plus appropriée d’un classificateur multi-étiquette.

Dans certains problèmes de classification, les étiquettes appartiennent à : une « structure hiérarchique ».
Le répertoire ouvert « dmoz » par exemple (http://www.dmoz.org/), maintient une hiérarchie de classes conceptuelles pour la catégorisation des pages Web.
Une page Web peut être étiquetée en utilisant une ou plusieurs de ces classes, qui peuvent appartenir à différents niveaux de la hiérarchie.
Le niveau supérieur de la hiérarchie MIPS (Centre d’Information de Munich pour les Séquence de Protéines) se compose de classes telles que : métabolisme, énergie, transcription et synthèse de protéines.
Chacune de ces classes est ensuite subdivisée en classes plus spécifiques, et celles-ci sont à leur tour subdivisées, puis à nouveau subdivisées, de sorte que la hiérarchie peut aller jusqu’à 4 niveaux.
Lorsque les étiquettes d’un ensemble de données appartiennent à une structure hiérarchique, alors nous appelons la tâche : « classification hiérarchique ».
Si chaque exemple est étiqueté avec plus d’un nœud de la structure hiérarchique, alors la tâche est appelée « classification multi-étiquette hiérarchique ».
Dans le présent article, nous nous concentrons sur les méthodes de classification multi-étiquette plates (c’est à dire non hiérarchiques).

Jin et Ghahramani (2002) appellent « problèmes à étiquettes multiples », des problèmes de classification semi-supervisée où chaque exemple est associé à plus d’une classe, mais une seule de ces classes est la vraie classe de l’exemple.
Cette tâche n’est pas aussi courante dans les applications au monde réel, que celle que nous étudions.

L’apprentissage à plusieurs exemples est une variante de l’apprentissage supervisé, où la tâche consiste à apprendre un concept à partir de sacs d’exemples positifs ou négatifs.
Chaque sac peut contenir de nombreux exemples, mais un sac est étiqueté positif même si un seul des exemples qu’il contient relève du concept.
Un sac n’est étiqueté comme négatif que si tous les exemples qu’il contient sont négatifs.

Méthodes de classification multi-étiquette.
Nous pouvons regrouper les méthodes existantes pour la classification multi-étiquette en deux catégories principales : a) les méthodes par transformation du problème, et b) les méthodes par adaptation algorithmique.
Nous appelons méthodes par transformation du problème, ces méthodes qui transforment le problème de classification multi-étiquette en un ou plusieurs problèmes de classification mono-étiquette ou de régression mono-étiquette, pour lesquels il existe une énorme bibliographie d’algorithmes d’apprentissage.
Nous appelons méthodes par adaptation algorithmique, ces méthodes qui étendent des algorithmes d’apprentissage spécifiques, afin de gérer directement des données multi-étiquette.

Méthodes par transformation du problème.

Pour illustrer ces méthodes, nous utiliserons l’ensemble de données du tableau.
Il consiste en quatre exemples (4 documents dans notre cas) qui appartiennent à une ou plusieurs des quatre classes suivantes: Sports, Religion, Science et Politique.

Il existe deux méthodes directes par transformation du problème qui forcent le problème d’apprentissage vers une classification traditionnelle mono-étiquette.
La première (appelée PT1) sélectionne subjectivement ou aléatoirement l’une des multiples étiquettes de chaque exemple multi-étiquette et rejette le reste, tandis que la seconde (appelé PT2) rejette simplement chaque exemple multi-étiquette de l’ensemble de données multi-étiquette. [Note du traducteur: Si vous avez des difficultés à compendre cette phrase, sachez que c’est normal. C’est beaucoup plus facile à comprendre sous la forme de tableaux.]
Les tableaux et montrent les ensembles de données transformés respectivement par PT1 et PT2.
Ces deux méthodes par transformation du problème éliminent une grande partie du contenu informationnel de l’ensemble de données originel multi-étiquette et ne sont donc, en conséquence, pas approfondies dans le présent article.
[Note du traducteur: En tant que spécialiste du domaine, je prétends que cette phrase veut dire en substance que ces méthodes sont tellement brutales, bourrines, gâchent tellement d’information, qu’on sait par avance qu’elles seront tellement peu performantes qu’il n’y a pas d’utilité à les détailler.]

La troisième méthode par transformation du problème que nous mentionnerons (appelée PT3), considère chaque combinaison différente d’étiquettes qui existe dans l’ensemble de données multi-étiquette, comme une étiquette unique.
Elle apprend ainsi un classificateur mono-étiquette H : X → P(L) , où P(L) est l’ensemble de puissance de L.
[Note du traducteur: Cette phrase est complètement inutile à comprendre parce que les tableaux illustratifs qui arrivent juste après sont beaucoup plus clairs et simples et rapides à comprendre].
Le tableau montre le résultat de la transformation de l’ensemble de données du tableau en utilisant cette méthode.
L’un des aspects négatifs de PT3 est qu’il peut conduire à des ensembles de données avec un grand nombre de classes et peu d’exemples de chaque classe.
PT3 a été utilisé dans le passé dans.

La méthode par transformation du problème la plus courante (appelée PT4) apprend |L| classificateurs binaires H_{l} : X → { l, \neg l } , un pour chaque étiquette différente l dans L.
Elle transforme l’ensemble de données d’origine en |L| ensembles de données D_{l} qui contiennent tous les exemples de l’ensemble de données d’origine, étiquetés l si les étiquettes de l’exemple original contenaient l et \neg l sinon.
[Note du traducteur: Cette phrase est complètement inutile à comprendre parce que les tableaux illustratifs qui arrivent juste après sont beaucoup plus clairs et simples et rapides à comprendre].
C’est la même solution que celle utilisée pour gérer un problème multiclasse mono-étiquette à l’aide d’un classificateur binaire.

Pour la classification d’un nouvel exemple x, cette méthode génère comme ensemble d’étiquettes, l’union des étiquettes qui sont sorties des |L| classificateurs.
[Note du traducteur: Je ne vais pas me fatiguer à reproduire l’équation présente à cet endroit, dans l’article d’origine car je la trouve complètement inutile à la compréhension.]
La figure montre les quatre ensembles de données qui sont construits par la méthode PT4 appliquée au tableau.
La méthode PT4 a été utilisé dans le passé dans .

Une méthode par transformation du problème simple, mais non documentée, est la suivante (appelée PT5) : D’abord, elle décompose chaque exemple (x, Y) en |Y| exemples (x, l) pour tout l \in Y.
[Note du traducteur: Encore une fois, ne vous faites pas des entorses des neurones à vous éforcer de comprendre cette phrase, allez plutôt voir les tableaux illustratifs correspondants et ].
Ensuite, il apprend un classificateur mono-étiquette « couverture-basé » à partir de l’ensemble de données transformé.
Enfin, il post-traite cette distribution pour sortir un ensemble d’étiquettes.
Un moyen simple d’y parvenir est de sortir les étiquettes pour lesquelles le degré de certitude est supérieur à un seuil spécifique (0,5 par exemple).
Une manière plus complexe consiste à produire les étiquettes pour lesquelles le degré de certitude est supérieur à un pourcentage du degré de certitude le plus élevé (par exemple 70 \%).
Le tableau montre le résultat de la transformation de l’ensemble de données du tableau en utilisant cette méthode.
Méthodes par adaptation algorithmique.
Clare et King (2001) ont adapté l’algorithme C4.5 pour les données multi-étiquette.
Ils ont modifié la formule de calcul de l’entropie comme suit :

Ils ont également autorisé des étiquettes multiples dans les feuilles de l’arbre.

Adaboost.MH et Adaboost.MR (Schapire et Singer, 2000) sont deux extensions d’AdaBoost (Freund et Schapire, 1997) pour la classification multi-étiquette.
Ils appliquent tous les deux AdaBoost sur des classificateurs faibles de la forme H:X * L \rightarrow R.
Dans AdaBoost.MH, si le signe de la sortie des classificateurs faibles est positif pour un nouvel exemple x et une étiquette l alors nous considérons que cet exemple peut être étiqueté avec l, tandis que s’il est négatif alors cet exemple n’est pas étiqueté avec l.
Dans AdaBoost.MR, la sortie des classificateurs faibles est prise en compte pour le classement de chacune des étiquettes dans L.

Bien que ces deux algorithmes soient des adaptations d’une approche d’apprentissage spécifique, nous remarquons qu’à la base, ils utilisent en fait une transformation du problème (appelée PT6) : En effet, chaque exemple (x, Y) est décomposé en |L| exemples (x, l, Y[l]), pour tout l \in L, où Y[l] = 1 si l \in Y, et [l] = −1 sinon. [Note du traducteur: On s’en fiche de cette phrase, concentrez-vous que le tableau illustratif. Il est beaucoup plus clair, simple et rapide à comprendre].
Le tableau montre le résultat de la transformation de l’ensemble de données du tableau à l’aide de cette méthode.

ML-kNN est une adaptation de l’algorithme d’apprentissage paresseux kNN aux données multi-étiquette.
En fait, cette méthode suit le paradigme PT4.
Essentiellement, ML-kNN utilise l’algorithme kNN indépendamment pour chaque étiquette l : il va chercher les k exemples les plus proches de l’exemple testé.
Puis il retient ceux qui sont étiquetés au moins avec l comme positifs. Et les autres exemples sont considérés comme négatifs.
Ce qui différencie principalement cette méthode (ML-kNN) de l’application de l’algorithme original kNN au problème transformé en utilisant PT4, c’est l’utilisation de probabilités a priori.
ML-kNN a également la capacité de produire un classement des étiquettes en sortie.

Luo et Zincir Heywood (2005) présentent deux systèmes de classification de documents multi-étiquette, qui sont également basés sur le classificateur kNN.
L’apport principal de leurs travaux se situe sur l’étape de prétraitement pour une représentation efficace des documents.
Pour la classification d’un nouvel exemple, les systèmes trouvent dans un premier temps les k exemples les plus proches.
Ensuite, pour chaque apparition de chaque étiquette dans chacun de ces exemples, ils augmentent un compteur correspondant pour cette étiquette.
Enfin, ils produisent les N étiquettes avec les compteurs les plus élevés.
N est choisi en fonction du nombre d’étiquettes de l’exemple.
Il s’agit d’une stratégie inappropriée pour une utilisation dans le monde réel, où le nombre d’étiquettes d’un nouvel exemple est inconnu.

McCallum (1999) définit un modèle génératif probabiliste selon lequel, chaque étiquette génère des mots différents.
Sur la base de ce modèle, un document multi-étiquette est produit par un mélange des distributions des mots de ses étiquettes.
Les paramètres du modèle sont appris par estimation a posteriori maximale à partir de documents d’apprentissage étiquetés, en utilisant la « Maximisation des Espérances » pour calculer quelles étiquettes étaient à la fois les poids du mélange et les distributions de mots pour chaque étiquette.
Étant donné un nouveau document, le jeu d’étiquettes le plus probable est sélectionné avec la règle de Bayes.
Cette approche pour la classification d’un nouveau document suit en fait le paradigme de PT3, où chaque ensemble différent d’étiquettes est considéré indépendamment comme une nouvelle classe.

Elisseeff et Weston (2002) présentent un algorithme de classement pour la classification multi-étiquette.
Leur algorithme suit la philosophie des SVM (Machines à Vecteurs de Support) : c’est un modèle linéaire qui essaie de minimiser une fonction de coût tout en maintenant une marge importante.
La fonction de coût qu’ils utilisent est la perte de classement, qui est définie comme la fraction moyenne de paires d’étiquettes qui sont ordonnées incorrectement.
Cependant, comme indiqué précédemment, l’inconvénient d’un algorithme de classement est qu’il ne génère pas, en sortie, un ensemble d’étiquettes.

Godbole et Sarawagi (2004) présentent deux améliorations du classificateur Machines à Vecteurs de Support (SVM) en conjonction avec la méthode PT4 pour la classification multi-étiquette.
La première amélioration pourrait facilement être séparée afin d’être utilisée avec n’importe quel algorithme de classification et pourrait donc être considérée comme une extension de PT4.
L’idée principale est d’étendre l’ensemble de données d’origine avec |L| paramètres descripteurs supplémentaires, contenant les prédictions de chaque classificateur binaire.
Puis, suit un deuxième tour, d’apprentissage de |L| nouveaux classificateurs binaires, cette fois en utilisant les ensembles de données étendus.
Pour la classification d’un nouvel exemple, les classificateurs binaires du premier tour sont initialement utilisés et leur sortie est annexée aux paramètres descripteurs de l’exemple pour former un méta-exemple.
Ce méta-exemple est ensuite classé par les classificateurs binaires du second tour.
À travers cette extension, l’approche prend en considération les dépendances potentielles entre les différentes étiquettes.
Notez ici que cette amélioration est en fait un cas spécialisé d’application de l' »Empilement » (Wolpert, 1992) (une méthode pour la combinaison de classificateurs multiples) sur PT4.

La deuxième amélioration de Godbole et Sarawagi, 2004 est spécifique aux Machines à Vecteurs de Support (SVM) et concerne la marge des Machines à Vecteurs de Support (SVM) dans les problèmes de classification multi-étiquette.
Ils améliorent la marge en a) supprimant les exemples d’apprentissage négatifs et très similaires qui se trouvent à une distance seuil de l’hyperplan appris, et b) en supprimant les exemples d’apprentissage négatifs d’une classe complète si elle est très similaire à la classe positive, sur la base d’une matrice de confusion estimée à l’aide d’un classificateur rapide et moyennement précis sur un ensemble de validation retenu.
Notez ici que la deuxième approche pour l’amélioration de la marge est en fait indépendante du SVM.
Par conséquent, elle pourrait également être utilisé comme une extension à PT4.

MMAC (Thabtah, Cowling et Peng, 2004) est un algorithme qui suit le paradigme de la « classification associative », qui traite de la construction d’ensembles de règles de classification en utilisant les règles d’association.
MMAC apprend un ensemble initial de règles de classification par l’exploration de règles d’association, supprime les exemples associés à cet ensemble de règles et apprend de façon récursive un nouvel ensemble de règles à partir des exemples restants jusqu’à ce qu’il ne reste plus d’éléments fréquents.
Ces ensembles de règles multiples peuvent contenir des règles avec des préconditions similaires mais des étiquettes différentes par ailleurs.
Ces règles sont fusionnées en une seule règle multi-étiquette.
Les étiquettes sont classées en fonction du soutien des règles individuelles correspondantes.

Enjeux.
À quel point un ensemble de données est-il multi-étiquette ?
Tous les ensembles de données ne sont pas autant multi-étiquette les uns que les autres.
Dans certaines applications, le nombre d’étiquettes de chaque exemple est faible par rapport à |L|, alors que dans d’autres, il est important.
Il pourrait s’agir d’un paramètre qui influence les performances des différentes méthodes multi-étiquette.
Nous introduisons ici les concepts de cardinalité des étiquettes, et de densité des étiquettes d’un ensemble de données.
Soit D un ensemble de données multi-étiquette composé de |D| exemples multi-étiquette (x_{i} , Y_{i} ), i = 1..|D|.

Définition 1 : La cardinalité d’étiquettes de D est le nombre moyen d’étiquettes des exemples dans D:

Définition 2 : La densité d’étiquettes de D est le nombre moyen d’étiquettes des exemples dans D divisé par |L| :

La cardinalité des étiquettes est indépendante du nombre d’étiquettes |L| dans le problème de classification, et est utilisée pour quantifier le nombre d’étiquettes alternatives qui caractérisent les exemples d’un ensemble de données d’apprentissage multi-étiquette.
La densité des étiquettes prend en compte le nombre d’étiquettes dans le problème de classification.
Deux ensembles de données ayant la même cardinalité d’étiquettes mais une grande différence dans le nombre d’étiquettes (densités d’étiquettes différentes) peuvent ne pas présenter les mêmes propriétés et entraîner un comportement différent des méthodes de classification multi-étiquette.
Les deux métriques sont liées l’une à l’autre : LC(D) = |L| * LD(D) .

Métriques d’évaluation.

La classification multi-étiquette nécessite des métriques différentes de celles utilisées dans la classification traditionnelle mono-étiquette.
Cette section présente les différentes métriques qui ont été proposées dans la littérature.
Soit D un ensemble de données d’évaluation multi-étiquette, constitué de |D| exemples multi-étiquette (x_{i} , Y_{i} ), i = 1..|D|, Y_{i} \subseteq L.
Soit H un classificateur multi-étiquette et Z_{i} = H(x_{i}) l’ensemble des étiquettes prédites par H pour l’exemple x_{i}.

Schapire et Singer (2000) considèrent la « Perte de Hamming », définie comme suit :

Où grand Delta représente la différence symétrique de deux ensembles et correspond à l’opération XOR en logique booléenne

Les métriques suivantes sont utilisées dans Godbole et Sarawagi, 2004, pour l’évaluation de H sur D:

Boutell et al. (2004) donnent une version plus généralisée de l’Exactitude ci-dessus en utilisant un paramètre \alpha \geq 0, appelé taux de pardon :

Ce paramètre est utilisé afin de contrôler le pardon des erreurs qui sont faites dans la prédiction des étiquettes.
Ils donnent également une version encore plus généralisée de la précision en introduisant deux paramètres supplémentaires afin de permettre des coûts différents pour les faux positifs et les vrais négatifs.
Ces deux mesures générales de la précision sont trop complexes, en raison des paramètres supplémentaires, mais pourraient être utiles dans certaines applications.

Comparaison expérimentale des méthodes par transformation du problème.

Nous avons implémenté les méthodes PT3, PT4 et PT6 en Java, dans le cadre de la bibliothèque d’algorithmes d’apprentissage automatique WEKA (Witten et Frank, 1998), et avons mis le logiciel à la disposition du public à l’adresse suivante.

Nous avons expérimenté les trois méthodes par PT (Transformation du Problème) conjointement avec les algorithmes d’apprentissage de classification suivants : kNN (Aha, Kibler et Albert), C4.5 (Quinlan, 1993), Naïve Bayésienne (John et Langley, 1995) et SMO (Platt, 1998).
Pour l’évaluation des performances, nous avons utilisé les métriques suivantes: Perte de Hamming, Exactitude, Précision et Rappel. Elles ont été présentées dans la section précédente.

Nous avons expérimenté sur les ensembles de données multi-étiquette suivants : « genbase » (Diplaris et al., 2005) et « yeast » (Elisseeff et Weston, 2002) sont des ensembles de données biologiques qui concernent respectivement la classification de la fonction des protéines et la classification de la fonction des gènes.
Le jeu de données « scènes » (Boutell et al., 2004) contient des données liées à un problème de classification de scènes.
Ces ensembles de données ont été récupérés sur le site de la bibliothèque de Classification par Vecteur de Support LIBSVM (Chang et Lin, 2001), et transformés dans un format spécifique adapté à notre logiciel, basé sur le format de fichier ARFF de la bibliothèque WEKA.
Les ensembles de données transformées sont également disponibles à l’URL susmentionné.

Les détails des ensembles de données, tels que le nombre d’exemples, le nombre d’attributs numériques et discrets, le nombre de classes et la densité de leurs étiquettes sont donnés dans le tableau.
Nous remarquons que « genbase » (LD=0,05) et « scènes » (LD=0,18) sont des ensembles de données multi-étiquette assez épars avec moins de 1,5 étiquettes par exemple, en moyenne.
Le jeu de données « yeast », par contre, est plus dense (LD=0,30) avec plus de 4 étiquettes par exemple, en moyenne.

Le tableau présente les résultats analytiques sur les trois ensembles de données.
Nous allons d’abord discuter des résultats en termes de Précision.
La combinaison de la méthode PT3 et de l’algorithme d’apprentissage SMO donne les meilleurs résultats dans chacun des trois ensembles de données.
En outre, la méthode PT3 présente l’exactitude moyenne la plus élevée pour tous les algorithmes d’apprentissage dans chacun des trois ensembles de données, suivie de PT4 puis de PT6.
Cela signifie qu’il s’agit de la meilleure méthode indépendamment de l’algorithme d’apprentissage dans chacun des trois ensembles de données.
Il s’agit d’un résultat intéressant, étant donné que la méthode PT3 n’est pas aussi populaire dans la littérature que la méthode PT4.

Nous allons maintenant discuter des résultats en termes de Perte de Hamming.
Dans « genbase », les meilleurs résultats sont obtenus avec PT4 en combinaison avec kNN ou SMO.
Dans « yeast », les meilleurs résultats sont à nouveau obtenus avec PT4 en combinaison avec SMO, tandis que dans « scènes », les meilleurs résultats sont obtenus avec PT3 en combinaison avec SMO.
Indépendamment de l’algorithme utilisé, PT3 est la meilleure méthode dans le cas de « scènes », PT4 dans le cas de « genbase » et PT6 dans « yeast ».

Un résultat digne d’intérêt est que PT6 ne donne pas de bons résultats en combinaison avec le SMO pour les ensembles de données « scènes » et « genbase ».
Notez que ces deux ensembles de données sont assez épars puisque LD(scenes)=0,18 et LD(genbase)=0,05.
Cela signifie qu’après la transformation, l’attribut de classe aura un grand nombre d’exemples avec une valeur de 1.
Il semble que dans ces cas, SMO apprenne à prédire toujours 1.
Cela conduit à une exactitude, une précision et un rappel nuls, tandis que la perte de Hamming devient égale à la densité d’étiquettes de l’ensemble de données.

Conclusions et travaux à venir.

Ce travail s’est intéressé à la tâche de classification multi-étiquette : il a introduit le problème, a donné une présentation organisée des méthodes qui existent dans la littérature, et fournit des résultats expérimentaux comparatifs pour certaines de ces méthodes.
À notre connaissance, il n’existe aucun autre article de synthèse sur la tâche intéressante et d’actualité de classification multi-étiquette.
À l’avenir, nous avons l’intention d’effectuer une catégorisation plus fine des différentes méthodes de classification multi-étiquette, et de réaliser des expériences plus approfondies avec davantage d’ensembles de données et de méthodes.

Nous avons également l’intention de réaliser une étude expérimentale comparative des méthodes par adaptation algorithmique.

Thierry Artières:
https://scholar.google.fr/citations?user=p0-_w_AAAAAJ&hl=fr

Références personnelles et mon profil:

Références de mon sujet de thèse:
https://www.theses.fr/2016LARE0005

Un peu de biblio perso:
Manuscrit de thèse « RECONNAISSANCE AUTOMATIQUE DE SONS D’OISEAUX ET D’INSECTES ».
Olivier Dufour, le 18 février 2016, pour l’obtention du grade de Docteur de l’université de la Réunion »:
https://drive.google.com/file/d/1rPhJJMyPIi7ZUWQ_KzYGHbzBRyYJJdwR/view?usp=sharing
https://www.researchgate.net/profile/Olivier_Dufour2
https://books.google.fr/books?hl=fr&lr=&id=XGOfDwAAQBAJ&oi=fnd&pg=PA83&dq=olivier+dufour&ots=7gTOW4reSH&sig=Ux_G5gM3DgOAvTjX1IniIQR2Gko#v=onepage&q=olivier%20dufour&f=false
https://cel.archives-ouvertes.fr/LIP6/hal-01488785v1
https://hal-amu.archives-ouvertes.fr/hal-01488264/
https://www.sciencedirect.com/science/article/abs/pii/S1574954116301194
https://doi.org/10.1016/j.ecoinf.2016.08.004

Les articles que j’ai reviewés pour la revue scientifique à comité de lecture « Ecological informatics »:
https://www.sciencedirect.com/science/article/abs/pii/S1574954116301261
https://www.sciencedirect.com/science/article/abs/pii/S1574954117300286
https://arxiv.org/abs/1909.04425
https://cel.archives-ouvertes.fr/LIP6/hal-01488786v1

Pour recevoir les prochaines traductions d’articles scientifiques par mail:
https://retexp.fr/pour-recevoir-les-prochaines-traductions-darticles-scientifiques-par-mail/

Pour écouter (ou lire) toutes mes autres lectures d’articles scientifiques anglais traduits en français:
https://www.youtube.com/playlist?list=PLOQanq3p4_Clc1XMv80x0oJaHc_GgMRo2
https://retexp.fr/comment-savoir-si-un-article-scientifique-anglais-a-deja-ete-traduit-en-francais/

F A C E B O O K
https://www.facebook.com/Science-Dr-Dufour-Olivier-2316438282013527/

T W I T T E R
https://twitter.com/dufour_dr

Je suis le Docteur Olivier Dufour. (Montpellier)


0 commentaire

Laisser un commentaire