Classificació estadística

En estadística, la classificació és el problema d'identificar a quina d'un conjunt de categories (subpoblacions) pertany una observació (o observacions). Alguns exemples són assignar un determinat correu electrònic a la classe "correu brossa" o "no spam" i assignar un diagnòstic a un pacient determinat en funció de les característiques observades del pacient (sexe, pressió arterial, presència o absència de determinats símptomes, etc).[1]

Sovint, les observacions individuals s'analitzen en un conjunt de propietats quantificables, conegudes de diverses maneres com a variables o característiques explicatives. Aquestes propietats poden ser categòriques de diferents maneres (p "A", "B", "AB" o "O", per al tipus de sang), ordinal (per exemple, "gran", "mitjana" o "petit"), amb valors enters (per exemple, el nombre d'ocurrències d'una paraula determinada en un correu electrònic) o de valor real (per exemple, una mesura de la pressió arterial). Altres classificadors funcionen comparant observacions amb observacions anteriors mitjançant una funció de semblança o distància.

Un algorisme que implementa la classificació, especialment en una implementació concreta, es coneix com a classificador. El terme "classificador" de vegades també es refereix a la funció matemàtica, implementada per un algorisme de classificació, que mapeja les dades d'entrada a una categoria.[2]

La terminologia entre els camps és força variada. A l'estadística, on la classificació es fa sovint amb regressió logística o un procediment similar, les propietats de les observacions s'anomenen variables explicatives (o variables independents, regressors, etc.), i les categories a predir es coneixen com a resultats, que es consideren ser valors possibles de la variable dependent. En l'aprenentatge automàtic, les observacions sovint es coneixen com a instàncies, les variables explicatives s'anomenen característiques (agrupades en un vector de característiques) i les possibles categories que es poden predir són classes. Altres camps poden utilitzar una terminologia diferent: per exemple, en ecologia comunitària, el terme "classificació" normalment es refereix a l'anàlisi de clústers.[3]

Com que cap forma única de classificació és adequada per a tots els conjunts de dades, s'ha desenvolupat un gran conjunt d'eines d'algorismes de classificació. Els més utilitzats inclouen:[4]

  • Potenciació (meta-algorisme).
  • Aprenentatge de l'arbre de decisions: algorisme d'aprenentatge automàtic Bosc aleatori: mètode d'aprenentatge automàtic de conjunt basat en arbre de cerca binari.
  • Programació genètica: tècnica mitjançant la qual els programes informàtics es codifiquen com un conjunt de gens. Programació d'expressió gènica: algorisme evolutiu. Programació de múltiples expressions. Programació genètica lineal.
  • Estimació del nucli k-veí més proper.
  • Aprenentatge de la quantificació vectorial.
  • Classificador lineal: classificació estadística en aprenentatge automàtic. Discriminant lineal de Fisher. Regressió logística: model estadístic per a una variable dependent binària. Classificador de Bayes ingenu: algorisme de classificació probabilística Perceptron – algorisme per a l'aprenentatge supervisat de classificadors binaris.
  • Classificador quadràtic Màquina vectorial de suport: conjunt de mètodes per a l'aprenentatge estadístic supervisat. Els mínims quadrats admeten la màquina vectorial.


Referències