Assignació Latent de Dirichlet

En el processament de llenguatge natural, l'Assignació Latent de Dirichlet (LDA, de l'anglès Latent Dirichlet Allocation) és un modelatge de temes (topic model) que permet analitzar els temes dels que tracten diferents textos. Es considera que cada text és una barreja d'un nombre reduït de temes, i que la presència de cada paraula al text és atribuïble a un dels temes del document.

Temes

En la LDA, es pot visualitzar cada document com una barreja de diversos temes o categories en què es considera que cada document té un conjunt de temes que li són assignats mitjançant LDA. Per exemple, un model LDA pot tenir temes que es puguin classificar com relacionats amb GAT i relacionats amb GOS. Un tema té probabilitats de generar diverses paraules, com ara llet, miolar i gatet, que l'analista pot classificar i interpretar com a relacionades amb GAT. Naturalment, la paraula gat tindrà una alta probabilitat en relació a aquest tema. El tema relacionat amb GOS també té probabilitats de generar altres paraules, com cadell, bordar i os poden tenir una probabilitat elevada. Les paraules sense rellevància especial, com ara "el" (considerada en llenguatge natural una paraula buida, o stopword), tindran una probabilitat aproximadament igual entre temes o categories (o es poden situar en una categoria separada). Un tema no està fortament definit semànticament ni epistemològicament. S'identifica a partir de la detecció automàtica de la possibilitat que es produeixi coincidència en diferents documents. Una paraula lèxica pot aparèixer en diversos temes amb una probabilitat diferent, i amb un conjunt diferent de paraules veïnes en cada tema. Se suposa que cada document es caracteritza per un conjunt específic de temes.

Història

En el context de la genètica de poblacions, la LDA va ser proposada per J. K. Pritchard, M. Stephens i P. Donnelly l'any 2000. En el context de l'aprenentatge de màquines, on avui s'aplica més àmpliament, la LDA va ser redescoberta de manera independent per David Blei, Andrew Ng i Michael I. Jordan el 2003 i presentada com un model gràfic per a la descoberta de temes. A partir del 2019, aquests dos treballs tenien 24.620 i 26.320 citacions respectivament, cosa que els converteix entre els més citats en els camps de l'aprenentatge de màquines i la intel·ligència artificial.

El mètode té similituds amb l'anàlisi semàntica latent probabilística (pLSA), excepte que en la LDA se suposa que la distribució del tema té un Dirichlet escàs anterior. Els escassos nivells de Dirichlet codifiquen la intuïció que els documents només cobreixen un petit conjunt de temes i que els temes utilitzen només un petit conjunt de paraules amb freqüència. A la pràctica, això es tradueix en una millor desambiguació de les paraules i en una assignació més precisa de documents a temes. LDA és una generalització del model de pLSA, que equival a LDA sota una distribució prèvia de Dirichlet uniforme.