Word embedding

No processamento de linguagem natural (PLN), word embedding é uma representação de uma palavra. A incorporação (embedding) é usada na análise de texto. Tipicamente, a representação é um vetor de valores reais que codifica o significado da palavra de tal forma que as palavras que estão mais próximas no espaço vetorial têm expectativa de serem semelhantes em significado.[1] A incorporação de palavras pode ser obtida usando técnicas de modelagem de linguagem e de aprendizado de recursos, onde palavras ou frases do vocabulário são mapeadas em vetores de números reais.

Os métodos para gerar este mapeamento incluem redes neurais,[2] redução de dimensionalidade na matriz de co-ocorrência de palavras,[3][4][5] modelos probabilísticos,[6] método de base de conhecimento explicável,[7] e representação explícita em termos do contexto em que as palavras aparecem.[8]

Foi demonstrado que a incorporação (embeddings) de palavras e frases, quando usadas como a representação de entrada subjacente, têm sido demonstradas a melhorar o desempenho em tarefas de PLN, como análise sintática[9] e análise de sentimento.[10]

Desenvolvimento e história da abordagem

Na semântica distribucional, uma abordagem metodológica quantitativa para entender o significado na linguagem observada, word embeddings ou modelos de espaço de características semânticas têm sido utilizados como uma representação do conhecimento por algum tempo.[11] Esses modelos têm como objetivo quantificar e categorizar similaridades semânticas entre itens linguísticos com base em suas propriedades distribucionais em grandes amostras de dados linguísticos. A ideia subjacente de que "uma palavra é caracterizada pelas companhias que mantém" foi proposta em um artigo de 1957 por John Rupert Firth,[12] mas também tem raízes no trabalho contemporâneo sobre sistemas de pesquisa[13] e na psicologia cognitiva.[14]

A noção de um espaço semântico com itens lexicais (palavras ou termos de várias palavras) representados como vetores ou embeddings é baseada nos desafios computacionais de capturar características distribucionais e usá-las para aplicação prática na medição da similaridade entre palavras, frases ou documentos inteiros. A primeira geração de modelos de espaço semântico é o modelo de espaço vetorial para recuperação de informações.[15][16][17]

Tais modelos de espaço vetorial para palavras e seus dados distribucionais implementados em sua forma mais simples resultam em um espaço vetorial muito esparsa de alta dimensionalidade (cf. maldição da dimensionalidade). Reduzir o número de dimensões usando métodos algébricos lineares, como decomposição de valores singulares, então levou à introdução da análise semântica latente no final da década de 1980 e à abordagem de indexação aleatória para coletar contextos de coocorrência de palavras.[18][19][20][21] Em 2000, Bengio et al. forneceram em uma série de artigos intitulados "Modelos de linguagem probabilísticos neurais" para reduzir a alta dimensionalidade das representações de palavras em contextos, "aprendendo uma representação distribuída para palavras".[22][23][24]

Um estudo publicado na NeurIPS (anteriormente conhecida como NIPS) 2002 introduziu o uso de incorporações tanto de palavras quanto de documentos aplicando o método de CCA do kernel a corpora bilíngues (e multilíngues), também fornecendo um exemplo inicial de aprendizado auto-supervisionado de incorporações de palavras.[25]

As incorporações de palavras vêm em dois estilos diferentes, um no qual as palavras são expressas como vetores de palavras co-ocorrentes, e outro no qual as palavras são expressas como vetores de contextos linguísticos nos quais as palavras ocorrem; esses diferentes estilos são estudados em Lavelli et al., 2004.[26] Roweis e Saul publicaram na Science como usar "locally linear embedding" (LLE) para descobrir representações de estruturas de dados de alta dimensionalidade.[27] A maioria das novas técnicas de incorporação de palavras após cerca de 2005 depende de uma arquitetura de rede neural em vez de modelos mais probabilísticos e algébricos, após o trabalho fundamental realizado por Yoshua Bengio e colegas.[28][29][30]

A abordagem foi adotada por muitos grupos de pesquisa após avanços teóricos em 2010 terem sido feitos na qualidade dos vetores e na velocidade de treinamento do modelo, além de avanços em hardware que permitiram a exploração de um espaço de parâmetros mais amplo de forma lucrativa. Em 2013, uma equipe da Google liderada por Tomas Mikolov criou o word2vec, um kit de ferramentas de incorporação de palavras que pode treinar modelos de espaço vetorial mais rapidamente do que abordagens anteriores. A abordagem word2vec tem sido amplamente utilizada em experimentação e foi fundamental para despertar o interesse pelas incorporações de palavras como tecnologia, movendo a linha de pesquisa para fora de pesquisas especializadas em experimentação mais ampla e, eventualmente, abrindo caminho para aplicação prática.[31]

Polissemia e homonímia

Historicamente, uma das principais limitações dos embeddings estáticos de palavras ou modelos de espaço vetorial de palavras é que palavras com múltiplos significados são combinadas em uma única representação (um único vetor no espaço semântico). Em outras palavras, a polissemia e a homonímia não são tratadas adequadamente. Por exemplo, na frase "O banco que visitei ontem era bonito!", não fica claro se o termo "banco" se refere a um banco de praça, uma instituição financeira ou até mesmo a um banco de jardim ou qualquer outro sentido que a palavra banco possa ter. A necessidade de acomodar múltiplos significados por palavra em diferentes vetores (incorporações de múltiplos sentidos) é a motivação para várias contribuições em PLN para dividir as incorporações de único sentido em múltiplos sentidos.[32][33]

A maioria das abordagens que produzem embeddings de múltiplos sentidos podem ser divididas em duas categorias principais para a representação de sentido das palavras, ou seja, não supervisionadas e baseadas em conhecimento.[34] Com base no skip-gram do word2vec, o Multi-Sense Skip-Gram (MSSG) [35] realiza a discriminação de sentidos das palavras e a incorporação simultaneamente, melhorando seu tempo de treinamento, ao mesmo tempo em que assume um número específico de sentidos para cada palavra. No Non-Parametric Multi-Sense Skip-Gram (NP-MSSG), esse número pode variar dependendo de cada palavra. Ao combinar o conhecimento prévio de bancos de dados lexicais (por exemplo, WordNet, ConceptNet, BabelNet), incorporações de palavras e desambiguação de sentidos de palavras, ocorre a Anotação do Sentido Mais Adequado (Most Suitable Sense Annotation - MSSA).[36] rotula os sentidos das palavras por meio de uma abordagem não supervisionada e baseada em conhecimento, considerando o contexto de uma palavra em uma janela deslizante pré-definida. Uma vez que as palavras são desambiguadas, elas podem ser usadas em uma técnica padrão de incorporação de palavras, resultando em embeddings de múltiplos sentidos. A arquitetura do MSSA permite que o processo de desambiguação e anotação seja realizado de forma recorrente, melhorando continuamente.[37]

O uso de embeddings de múltiplos sentidos é conhecido por melhorar o desempenho em várias tarefas de PLN, como marcação de partes do discurso, identificação de relações semânticas, relacionamento semântico, reconhecimento de entidades nomeadas e análise de sentimento.[38][39]

A partir do final da década de 2010, foram desenvolvidas incorporações contextualmente significativas, como ELMo e BERT.[40] Ao contrário dos embeddings de palavras estáticas, esses embeddings estão no nível de token, em que cada ocorrência de uma palavra tem seu próprio embedding. Essas incorporações refletem melhor a natureza multissenso das palavras, porque as ocorrências de uma palavra em contextos semelhantes estão situadas em regiões semelhantes do espaço de incorporação do BERT.[41][42]

Para sequências biológicas: BioVectors

Word embeddings para n-gramas em sequências biológicas (por exemplo, DNA, RNA e proteínas) para aplicações de bioinformática foram propostas por Asgari e Mofrad.[43] Eles nomearam esses vetores como "bio-vectors" (BioVec) para se referir a sequências biológicas em geral, "protein-vectors" (ProtVec) para proteínas (sequências de aminoácidos) e "gene-vectors" (GeneVec) para sequências de genes. Essa representação pode ser amplamente utilizada em aplicações de aprendizado profundo em proteômica e genômica. Os resultados apresentados por Asgari e Mofrad[43] sugerem que os BioVectors podem caracterizar sequências biológicas em termos de interpretações bioquímicas e biofísicas dos padrões subjacentes.

Game design

A utilização de Word embeddings em design de jogos foram propostas por Younès Rabii e Michael Cook[44] como uma maneira de descobrir jogabilidade emergente usando registros de dados de jogabilidade. O processo requer transcrever as ações que ocorrem durante o jogo dentro de uma linguagem formal e, em seguida, usar o texto resultante para criar incorporações de palavras. Os resultados apresentados por Rabii e Cook sugerem que os vetores resultantes podem capturar conhecimentos especializados sobre jogos como xadrez, que não são explicitamente declarados nas regras do jogo.[44]

Sentence embedding

A ideia foi estendida para embeddings de sentenças inteiras ou até mesmo documentos, por exemplo, na forma do conceito de "vetores de pensamento". Em 2015, alguns pesquisadores sugeriram "skip-thought vectors" como um meio para melhorar a qualidade da tradução automática.[45] Uma abordagem mais recente e popular para representar sentenças é o Sentence-BERT, ou SentenceTransformers, que modifica o BERT pré-treinado com o uso de estruturas de redes siamesas e de tripletos.[46]

Software

Diferentes softwares para treinar e utilizar word embeddings inclui o Word2vec de Tomáš Mikolov, o GloVe da Universidade de Stanford,[47] GN-GloVe,[48] Flair embeddings,[38] ELMo da AllenNLP,[49] BERT,[50] fastText, Gensim,[51] Indra,[52] e Deeplearning4j. A Análise de Componentes Principais (PCA) e a Incorporação Estocástica de Vizinhos Distribuída em T (t-SNE) são usadas para reduzir a dimensionalidade de espaços vetoriais de palavras e visualizar incorporações e clusters de palavras.[53]

Implicações éticas

A técnica de word embedding pode conter os preconceitos e estereótipos presentes no conjunto de dados treinado, como aponta Bolukbasi et al. no artigo de 2016 "Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings", em que uma incorporação de palavras publicamente disponível (e popular) treinada em textos do Google News (um corpus de dados comumente utilizado), que consiste em textos escritos por jornalistas profissionais, ainda mostra associações de palavras desproporcionais refletindo preconceitos de gênero e raciais ao extrair analogias de palavras.[54] Por exemplo, uma das analogias geradas usando word embedding como mencionado anteriormente é "homem está para programador assim como mulher está para dona de casa".[55][56]

Pesquisas realizadas por Jieyu Zhou et al. mostram que as aplicações desses modelos de word embedding treinados sem supervisão cuidadosa provavelmente perpetuam preconceitos existentes na sociedade, os quais são introduzidos através dos dados de treinamento não alterados. Além disso, as incorporações de palavras podem até amplificar esses preconceitos.[57][58]

Referências

  1. Jurafsky, Daniel; H. James, Martin (2000). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0-13-095069-7 
  2. Mikolov, Tomas; Sutskever, Ilya. «Distributed Representations of Words and Phrases and their Compositionality». arXiv:1310.4546Acessível livremente [cs.CL] 
  3. Lebret, Rémi; Collobert, Ronan (2013). «Word Emdeddings through Hellinger PCA». Conference of the European Chapter of the Association for Computational Linguistics (EACL). 2014. [S.l.: s.n.] arXiv:1312.5542Acessível livremente 
  4. Levy, Omer; Goldberg, Yoav (2014). Neural Word Embedding as Implicit Matrix Factorization (PDF). NIPS 
  5. Li, Yitan; Xu, Linli (2015). Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective (PDF). Int'l J. Conf. on Artificial Intelligence (IJCAI) 
  6. Globerson, Amir (2007). «Euclidean Embedding of Co-occurrence Data» (PDF). Journal of Machine Learning Research 
  7. Qureshi, M. Atif; Greene, Derek (4 de junho de 2018). «EVE: explainable vector based embedding technique using Wikipedia». Journal of Intelligent Information Systems (em inglês). 53: 137–165. ISSN 0925-9902. arXiv:1702.06891Acessível livremente. doi:10.1007/s10844-018-0511-x 
  8. Levy, Omer; Goldberg, Yoav (2014). Linguistic Regularities in Sparse and Explicit Word Representations (PDF). CoNLL. pp. 171–180 
  9. Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). Parsing with compositional vector grammars (PDF). Proc. ACL Conf. Consultado em 14 de agosto de 2014. Cópia arquivada (PDF) em 11 de agosto de 2016 
  10. Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris (2013). Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (PDF). EMNLP 
  11. Sahlgren, Magnus. «A brief history of word embeddings» 
  12. Firth, J.R. (1957). «A synopsis of linguistic theory 1930–1955». Studies in Linguistic Analysis: 1–32  Reprinted in F.R. Palmer, ed. (1968). Selected Papers of J.R. Firth 1952–1959. [S.l.]: London: Longman 
  13. Luhn, H.P. (1953). «A New Method of Recording and Searching Information». American Documentation. 4: 14–16. doi:10.1002/asi.5090040104 
  14. Osgood, C.E.; Suci, G.J.; Tannenbaum, P.H. (1957). The Measurement of Meaning. [S.l.]: University of Illinois Press 
  15. Salton, Gerard (1962). «Some experiments in the generation of word and document associations». Proceedings of the December 4-6, 1962, fall joint computer conference on - AFIPS '62 (Fall). [S.l.: s.n.] pp. 234–250. ISBN 9781450378796. doi:10.1145/1461518.1461544 
  16. Salton, Gerard; Wong, A; Yang, C S (1975). «A Vector Space Model for Automatic Indexing». Communications of the ACM. 18 (11): 613–620. doi:10.1145/361219.361220 
  17. Dubin, David (2004). «The most influential paper Gerard Salton never wrote.». Consultado em 18 de outubro de 2020. Arquivado do original em 18 de outubro de 2020 
  18. Kanerva, Pentti, Kristoferson, Jan and Holst, Anders (2000): Random Indexing of Text Samples for Latent Semantic Analysis, Proceedings of the 22nd Annual Conference of the Cognitive Science Society, p. 1036. Mahwah, New Jersey: Erlbaum, 2000.
  19. Karlgren, Jussi; Sahlgren, Magnus (2001). Yoshinori, Uesaka; Kanerva, Pentti; Asoh, Hideki, eds. «From words to understanding». CSLI Publications. Foundations of Real-World Intelligence: 294–308 
  20. Sahlgren, Magnus (2005) An Introduction to Random Indexing, Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005, August 16, Copenhagen, Denmark
  21. Sahlgren, Magnus, Holst, Anders and Pentti Kanerva (2008) Permutations as a Means to Encode Order in Word Space, In Proceedings of the 30th Annual Conference of the Cognitive Science Society: 1300–1305.
  22. Bengio, Yoshua; Réjean, Ducharme; Pascal, Vincent (2000). «A Neural Probabilistic Language Model» (PDF). NeurIPS 
  23. Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Jauvin, Christian (2003). «A Neural Probabilistic Language Model» (PDF). Journal of Machine Learning Research. 3: 1137–1155 
  24. Bengio, Yoshua; Schwenk, Holger; Senécal, Jean-Sébastien; Morin, Fréderic; Gauvain, Jean-Luc (2006). «A Neural Probabilistic Language Model». Studies in Fuzziness and Soft Computing. 194. [S.l.]: Springer. pp. 137–186. ISBN 978-3-540-30609-2. doi:10.1007/3-540-33486-6_6 
  25. Vinkourov, Alexei; Cristianini, Nello; Shawe-Taylor, John (2002). Inferring a semantic representation of text via cross-language correlation analysis. (PDF). Advances in Neural Information Processing Systems. 15 
  26. Lavelli, Alberto; Sebastiani, Fabrizio; Zanoli, Roberto (2004). Distributional term representations: an experimental comparison. 13th ACM International Conference on Information and Knowledge Management. pp. 615–624. doi:10.1145/1031171.1031284 
  27. Roweis, Sam T.; Saul, Lawrence K. (2000). «Nonlinear Dimensionality Reduction by Locally Linear Embedding». Science. 290 (5500): 2323–6. Bibcode:2000Sci...290.2323R. CiteSeerX 10.1.1.111.3313Acessível livremente. PMID 11125150. doi:10.1126/science.290.5500.2323 
  28. https://he.wikipedia.org/wiki/%D7%99%D7%94%D7%95%D7%A9%D7%A2_%D7%91%D7%A0%D7%92%27%D7%99%D7%95
  29. Morin, Fredric; Bengio, Yoshua (2005). «Hierarchical probabilistic neural network language model». In: Cowell, Robert G.; Ghahramani, Zoubin. Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics. Col: Proceedings of Machine Learning Research. R5. [S.l.: s.n.] pp. 246–252 
  30. Mnih, Andriy; Hinton, Geoffrey (2009). «A Scalable Hierarchical Distributed Language Model». Curran Associates, Inc. Advances in Neural Information Processing Systems. 21 (NIPS 2008): 1081–1088 
  31. «word2vec». Google Code Archive. Consultado em 23 de julho de 2021 
  32. Reisinger, Joseph; Mooney, Raymond J. (2010). Multi-Prototype Vector-Space Models of Word Meaning. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Los Angeles, California: Association for Computational Linguistics. pp. 109–117. ISBN 978-1-932432-65-7. Consultado em 25 de outubro de 2019 
  33. Huang, Eric. (2012). Improving word representations via global context and multiple word prototypes. [S.l.: s.n.] OCLC 857900050 
  34. Camacho-Collados, Jose; Pilehvar, Mohammad Taher. «From Word to Sense Embeddings: A Survey on Vector Representations of Meaning». arXiv:1805.04032Acessível livremente [cs.CL] 
  35. Neelakantan, Arvind; Shankar, Jeevan; Passos, Alexandre; McCallum, Andrew (2014). «Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space». Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics. pp. 1059–1069. arXiv:1504.06654Acessível livremente. doi:10.3115/v1/d14-1113 
  36. Ruas, Terry; Grosky, William; Aizawa, Akiko (1 de dezembro de 2019). «Multi-sense embeddings through a word sense disambiguation process». Expert Systems with Applications. 136: 288–303. ISSN 0957-4174. arXiv:2101.08700Acessível livremente. doi:10.1016/j.eswa.2019.06.026 
  37. Agre, Gennady; Petrov, Daniel; Keskinova, Simona (1 de março de 2019). «Word Sense Disambiguation Studio: A Flexible System for WSD Feature Extraction». Information (em inglês). 10 (3). 97 páginas. ISSN 2078-2489. doi:10.3390/info10030097Acessível livremente 
  38. a b Akbik, Alan; Blythe, Duncan; Vollgraf, Roland (2018). «Contextual String Embeddings for Sequence Labeling». Santa Fe, New Mexico, USA: Association for Computational Linguistics. Proceedings of the 27th International Conference on Computational Linguistics: 1638–1649 
  39. Li, Jiwei; Jurafsky, Dan (2015). «Do Multi-Sense Embeddings Improve Natural Language Understanding?». Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics. pp. 1722–1732. arXiv:1506.01070Acessível livremente. doi:10.18653/v1/d15-1200 
  40. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (julho de 2019). «Proceedings of the 2019 Conference of the North». Association for Computational Linguistics. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers): 4171–4186. doi:10.18653/v1/N19-1423 
  41. Lucy, Li, and David Bamman. "Characterizing English variation across social media communities with BERT." Transactions of the Association for Computational Linguistics 9 (2021): 538-556.
  42. Reif, Emily, Ann Yuan, Martin Wattenberg, Fernanda B. Viegas, Andy Coenen, Adam Pearce, and Been Kim. "Visualizing and measuring the geometry of BERT." Advances in Neural Information Processing Systems 32 (2019).
  43. a b Asgari, Ehsaneddin; Mofrad, Mohammad R.K. (2015). «Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics». PLOS ONE. 10 (11): e0141287. Bibcode:2015PLoSO..1041287A. PMC 4640716Acessível livremente. PMID 26555596. arXiv:1503.05140Acessível livremente. doi:10.1371/journal.pone.0141287Acessível livremente 
  44. a b Rabii, Younès; Cook, Michael (4 de outubro de 2021). «Revealing Game Dynamics via Word Embeddings of Gameplay Data». Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment (em inglês). 17 (1): 187–194. ISSN 2334-0924. doi:10.1609/aiide.v17i1.18907Acessível livremente 
  45. Kiros, Ryan; Zhu, Yukun. «skip-thought vectors». arXiv:1506.06726Acessível livremente [cs.CL] 
  46. Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks." In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pp. 3982-3992. 2019.
  47. «GloVe» 
  48. Zhao, Jieyu; et al. (2018). «Learning Gender-Neutral Word Embeddings». arXiv:1809.01496Acessível livremente [cs.CL] 
  49. «Elmo» 
  50. Pires, Telmo; Schlinger, Eva (4 de junho de 2019). «How multilingual is Multilingual BERT?». arXiv:1906.01502Acessível livremente [cs.CL] 
  51. «Gensim» 
  52. «Indra». GitHub. 25 de outubro de 2018 
  53. Ghassemi, Mohammad; Mark, Roger; Nemati, Shamim (2015). «A visualization of evolving clinical sentiment using vector representations of clinical notes». 2015 Computing in Cardiology Conference (CinC). 2015. [S.l.: s.n.] pp. 629–632. ISBN 978-1-5090-0685-4. PMC 5070922Acessível livremente. PMID 27774487. doi:10.1109/CIC.2015.7410989 
  54. Bolukbasi, Tolga; Chang, Kai-Wei (2016). «Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings». arXiv:1607.06520Acessível livremente [cs.CL] 
  55. Bolukbasi, Tolga; Chang, Kai-Wei (21 de julho de 2016). «Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings». arXiv:1607.06520Acessível livremente [cs.CL] 
  56. Dieng, Adji B.; Ruiz, Francisco J. R.; Blei, David M. (2020). «Topic Modeling in Embedding Spaces». Transactions of the Association for Computational Linguistics. 8: 439–453. arXiv:1907.04907Acessível livremente. doi:10.1162/tacl_a_00325 
  57. Zhao, Jieyu; Wang, Tianlu; Yatskar, Mark; Ordonez, Vicente; Chang, Kai-Wei (2017). «Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints». Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. [S.l.: s.n.] pp. 2979–2989. doi:10.18653/v1/D17-1323 
  58. Petreski, Davor; Hashim, Ibrahim C. (26 de maio de 2022). «Word embeddings are biased. But whose bias are they reflecting?». AI & Society (em inglês). 38 (2): 975–982. ISSN 1435-5655. doi:10.1007/s00146-022-01443-wAcessível livremente