Bidireccional Encoder Representations from Transformers (amb acrònim anglès BERT) és una tècnica d'aprenentatge automàtic basada en transformadors per l'àmbit de processament del llenguatge natural (NLP) desenvolupada per Google. BERT va ser creat i publicat el 2018 per Jacob Devlin i els seus col·legues de Google.[1][2] El 2019, Google va anunciar que havia començat a aprofitar BERT al seu motor de cerca i, a finals del 2020, estava utilitzant BERT en gairebé totes les consultes en anglès. Una enquesta de literatura del 2020 va concloure que "en poc més d'un any, BERT s'ha convertit en una línia de base omnipresent en experiments de NPL", comptant més de 150 publicacions de recerca que analitzen i milloren el model.[3]
El BERT original en anglès té dos models:[4] (1) el BERT BASE : 12 codificadors amb 12 capçals d'autoatenció bidireccional, i (2) el BERT LARGE : 24 codificadors amb 16 capçals d'autoatenció bidireccional. Tots dos models s'entrenen prèviament a partir de dades no etiquetades extretes del BooksCorpus[5] amb 800 milions de paraules i la Viquipèdia en anglès amb 2.500 milions de paraules.
BERT és en el seu nucli un model de llenguatge transformador amb un nombre variable de capes de codificació i capçals d'autoatenció. L'arquitectura és "gairebé idèntica" a la implementació original del transformador a Vaswani et al. (2017).[6]
BERT es va entrenar prèviament en dues tasques: modelatge del llenguatge (el 15% dels fitxes es van emmascarar i BERT es va entrenar per predir-los des del context) i predicció de la següent frase (BERT va ser entrenat per predir si una frase següent escollida era probable o no donava la primera frase). Com a resultat del procés de formació, BERT aprèn incrustacions contextuals de paraules. Després de la formació prèvia, que és computacionalment costosa, BERT es pot ajustar amb menys recursos en conjunts de dades més petits per optimitzar el seu rendiment en tasques específiques.[7]
↑Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna Transactions of the Association for Computational Linguistics, 8, 2020, pàg. 842–866. arXiv: 2002.12327. DOI: 10.1162/tacl_a_00349.