Classificació multietiqueta

En l'aprenentatge automàtic, la classificació multi-etiqueta o la classificació multi-output és una variant del problema de classificació on es poden assignar diverses etiquetes no exclusives a cada instància. La classificació multietiqueta és una generalització de la classificació multiclasse, que és el problema d'una sola etiqueta de categoritzar les instàncies en una de diverses classes (més o igual a dues). En el problema de diverses etiquetes, les etiquetes no són exclusives i no hi ha cap restricció a quantes de les classes es pot assignar la instància.

Formalment, la classificació multietiqueta és el problema de trobar un model que mapeï les entrades x als vectors binaris y; és a dir, assigna un valor de 0 o 1 per a cada element (etiqueta) a y.

Mètodes de transformació de problemes

Existeixen diversos mètodes de transformació de problemes per a la classificació multietiqueta i es poden desglossar aproximadament en:

Transformació en problemes de classificació binària

L'enfocament de referència, anomenat mètode de rellevància binària, consisteix a entrenar de manera independent un classificador binari per a cada etiqueta. Donada una mostra no vista, el model combinat prediu totes les etiquetes d'aquesta mostra per a les quals els respectius classificadors prediuen un resultat positiu. Tot i que aquest mètode de dividir la tasca en múltiples tasques binàries pot assemblar-se superficialment a l'un vs. -tots (OvA) i un-vs. -rest (OvR) per a la classificació multiclasse, és essencialment diferent d'ambdós, perquè un únic classificador amb rellevància binària tracta amb una sola etiqueta, sense tenir en compte cap altra etiqueta. Una cadena de classificadors és un mètode alternatiu per transformar un problema de classificació multietiqueta en diversos problemes de classificació binària. Difereix de la rellevància binària en què les etiquetes es prediuen seqüencialment i la sortida de tots els classificadors anteriors (és a dir, positius o negatius per a una etiqueta concreta) s'introdueixen com a característiques als classificadors posteriors. Les cadenes classificadores s'han aplicat, per exemple, a la predicció de la resistència als fàrmacs del VIH.[1][2] La xarxa bayesiana també s'ha aplicat per ordenar de manera òptima els classificadors en cadenes de classificadors.[3]

En cas de transformar el problema a múltiples classificacions binàries, es llegeix la funció de probabilitat on índex recorre les mostres, índex recorre les etiquetes, indica els resultats binaris 0 o 1, indica el delta de Kronecker, indica les múltiples etiquetes codificades en calent de la mostra .

Transformació en problema de classificació multiclasse

La transformació del conjunt d'etiquetes (LP) crea un classificador binari per a cada combinació d'etiquetes present al conjunt d'entrenament. Per exemple, si les possibles etiquetes per a un exemple eren A, B i C, la representació del conjunt de potències d'etiquetes d'aquest problema és un problema de classificació multiclasse amb les classes [0 0 0], [1 0 0], [0 1 0] ], [0 0 1], [1 1 0], [1 0 1], [0 1 1] i [1 1 1] on per exemple [1 0 1] denota un exemple on hi ha les etiquetes A i C i l'etiqueta B està absent.[4]

Referències

  1. Heider, D; Senge, R; Cheng, W; Hüllermeier, E Bioinformatics, 29, 16, 2013, pàg. 1946–52. DOI: 10.1093/bioinformatics/btt331. PMID: 23793752 [Consulta: lliure].
  2. Riemenschneider, M; Senge, R; Neumann, U; Hüllermeier, E; Heider, D BioData Mining, 9, 2016, pàg. 10. DOI: 10.1186/s13040-016-0089-1. PMC: 4772363. PMID: 26933450 [Consulta: lliure].
  3. Soufan, Othman; Ba-Alawi, Wail; Afeef, Moataz; Essack, Magbubah; Kalnis, Panos Journal of Cheminformatics, 8, 10-11-2016, pàg. 64. DOI: 10.1186/s13321-016-0177-8. ISSN: 1758-2946. PMC: 5105261. PMID: 27895719 [Consulta: lliure].
  4. Spolaôr, Newton; Cherman, Everton Alvares; Monard, Maria Carolina; Lee, Huei Diana Electronic Notes in Theoretical Computer Science, 292, 3-2013, pàg. 135–151. DOI: 10.1016/j.entcs.2013.02.010. ISSN: 1571-0661 [Consulta: lliure].