Mô hình túi từ

Mô hình túi từ (bag-of-words) là một biểu diễn đơn giản hóa được sử dụng trong xử lý ngôn ngữ tự nhiêntruy vấn thông tin (IR). Trong mô hình này, một văn bản (chẳng hạn như một câu hoặc một tài liệu) được thể hiện dưới dạng túi (multiset) chứa các từ của nó, không quan tâm đến ngữ pháp và thậm chí trật tự từ nhưng vẫn giữ tính đa dạng. Mô hình túi từ cũng đã được sử dụng cho thị giác máy tính.

Mô hình túi từ thường được sử dụng trong các phương pháp phân loại tài liệu trong đó sự xuất hiện (tần suất) của mỗi từ được sử dụng như một đặc trưng để đào tạo máy phân loại [1].

Một tài liệu tham khảo đầu tiên về "túi từ" trong ngữ cảnh ngôn ngữ có thể được tìm thấy trong bài viết năm 1954 của Zellect Harris về Cấu trúc phân phối.[2]

Ví dụ áp dụng

Dưới đây mô hình một tài liệu văn bản bằng cách sử dụng túi từ. Đây là hai tài liệu văn bản đơn giản:

(1) Phúc thích xem phim. Đạt cũng thích xem phim.
(2) Bích cũng thích xem các trận bóng đá.

Dựa trên hai tài liệu văn bản này, một danh sách được xây dựng như sau cho mỗi tài liệu: (Ví dụ dưới đây coi mỗi tiếng là một từ, "bóng đá" là "bóng" và "đá". Cũng có thể xác định từ theo ngữ pháp, "bóng đá" là một từ.)

"Phúc", "thích", "xem", "phim", "Đạt" "cũng", "thích", "xem", "phim"

"Bích" "cũng" "thích" "xem" "các" "trận" "bóng" "đá"

Đại diện cho mỗi túi từ dưới dạng đối tượng JSON và quy cho biến Javascript tương ứng:

BoW1 = {"Phú":1,"thích":2,"xem":2,"phim":2,"Đạt":1,"cũng":1};
BoW2 = {"Bích":1,"cũng":1,"thích":1,"xem":1,"các":1,"trận":1,"bóng":1,"đá":1};

Mỗi khóa là từ và mỗi giá trị là số lần xuất hiện của từ đó trong tài liệu văn bản đã cho.

Thứ tự của các từ bị bỏ qua, vì vậy, ví dụ {"Phúc":1,"thích":2,"Đạt":1,"cũng":1,"xem":2,"phim":2} cũng là BoW1.

Lưu ý: nếu một tài liệu khác giống như một kết hợp của hai văn bản trên,

(3) Phúc thích xem phim. Đạt cũng thích xem phim. Bích cũng thích xem các trận bóng đá.

thể diện Javascript của nó sẽ là:

BoW3 = BoW1 = {"Phúc":1,"thích":3,"xem":3,"phim":2,"Đạt":1,"cũng":2,"Bích":1,"các":1,"trận":1,"bóng":1,"đá":1};

Vì vậy, như chúng ta thấy trong đại số túi, "liên kết" của hai văn bản trong cách biểu thị túi, chính thức là liên kết rời rạc, tổng hợp các bội số của từng từ.

.

Ứng dụng

Trong thực tế, mô hình túi từ chủ yếu được sử dụng như một công cụ tạo đặc trưng. Sau khi chuyển đổi văn bản thành một "túi từ", chúng ta có thể tìm các biện pháp khác nhau để mô tả văn bản. Loại đặc điểm hoặc tính năng phổ biến nhất được tính toán từ mô hình túi từ là tần số thuật ngữ, cụ thể là số lần một thuật ngữ xuất hiện trong văn bản. Đối với ví dụ trên, chúng ta có thể xây dựng hai danh sách sau để ghi lại tần số thuật ngữ của tất cả các từ riêng biệt (BoW1 và BoW2 được chứa như trong BoW3):

(1) [1, 2, 2, 2, 1, 1, 0, 0, 0, 0, 0]
(2) [0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1]

Mỗi mục trong danh sách đề cập đến số lượng mục tương ứng trong danh sách (đây cũng là biểu diễn biểu đồ). Ví dụ: trong danh sách đầu tiên (đại diện cho tài liệu 1), hai mục đầu tiên là "1,2":

  • Mục đầu tiên tương ứng với từ "Phúc" là từ đầu tiên trong danh sách và giá trị của nó là "1" vì "Phúc" xuất hiện trong tài liệu đầu tiên 1 lần.
  • Mục thứ hai tương ứng với từ "thích", đó là từ thứ hai trong danh sách và giá trị của nó là "2" vì "thích" xuất hiện trong tài liệu đầu tiên 2 lần

Danh sách (hoặc vectơ) đại diện này không bảo vệ thứ tự của các từ trong câu gốc. Đây chỉ là tính năng chính của mô hình Túi từ. Loại đại diện này có một số ứng dụng thành công, chẳng hạn như lọc email.

Tuy nhiên, tần số thuật ngữ không nhất thiết là đại diện tốt nhất cho văn bản. Các từ phổ biến như "the", "a", "to" trong tiếng Anh hầu như luôn là các thuật ngữ có tần suất cao nhất trong văn bản. Vì vậy, có số lượng thô cao không nhất thiết có nghĩa là từ tương ứng là quan trọng hơn. Để giải quyết vấn đề này, một trong những cách phổ biến nhất để "bình thường hóa" tần số thuật ngữ là tính trọng số của một thuật ngữ bằng nghịch đảo của tần số tài liệu, hoặc tf–idf. Ngoài ra, với mục đích cụ thể của phân loại, các lựa chọn thay thế được giám sát đã được phát triển để giải thích cho nhãn lớp của tài liệu.[3] Cuối cùng, trọng số nhị phân (hiện diện / vắng mặt hoặc 1/0) được sử dụng thay cho tần số cho một số vấn đề (ví dụ: tùy chọn này được triển khai trong hệ thống phần mềm học máy WEKA).

Mô hình N-gram

Mô hình túi từ là một đại diện tài liệu không có trật tự, chỉ có số lần xuất hiện của từ được coi trọng. Chẳng hạn, trong ví dụ trên "Phúc thích xem phim. Đạt cũng thích xem phim ", đại diện túi từ sẽ không tiết lộ rằng động từ " thích" luôn theo sau tên của một người trong văn bản này. Thay vào đó, mô hình n-gram có thể lưu trữ thông tin thứ tự này. Áp dụng cho ví dụ tương tự ở trên, một mô hình bigram sẽ phân tích văn bản thành các đơn vị sau và lưu trữ tần số thuật ngữ của từng đơn vị như trước đây.

[
  "Phúc thích",
  "thích xem",
  "xem phim",
  "Đạt cũng",
  "cũng thích",
  "thích xem",
  "xem phim",
]

Về mặt khái niệm, chúng ta có thể xem mô hình túi từ như một trường hợp đặc biệt của mô hình n-gram, với n = 1. Với n > 1, mô hình được đặt tên là w-shingling (trong đó w tương đương với n biểu thị số lượng từ được nhóm). Xem mô hình ngôn ngữ để thảo luận chi tiết hơn.

Triển khai Python

from keras.preprocessing.text import Tokenizer

sentence = ["Phúc thích xem phim. Đạt cũng thích xem phim."]

def print_bow(sentence: str) -> None:
    tokenizer = Tokenizer()
    tokenizer.fit_on_texts(sentence)
    sequences = tokenizer.texts_to_sequences(sentence)
    word_index = tokenizer.word_index 
    bow = {}
    for key in word_index:
        bow[key] = sequences[0].count(word_index[key])
    print(bow)
    printf("Bag of word sentence 1:\n{bow}")
    printf('We found {len(word_index)} unique tokens.')

print_bow(sentence)

Thủ thuật băm

Một cách khác để sử dụng từ điển là thủ thuật băm, trong đó các từ được ánh xạ trực tiếp đến các chỉ mục có hàm băm [4]. Vì vậy, không có bộ nhớ được yêu cầu để lưu trữ một từ điển. Xung đột băm thường được xử lý thông qua giải phóng bộ nhớ để tăng số lượng băm. Trong thực tế, băm đơn giản hóa việc thực hiện các mô hình túi từ và cải thiện khả năng mở rộng.

Ví dụ sử dụng: lọc thư rác

Trong lọc thư rác Bayes, một thông điệp email được mô hình hóa như một tập hợp các từ được sắp xếp theo thứ tự được chọn từ một trong hai phân phối xác suất: một đại diện cho thư rác và một đại diện cho email hợp pháp ("ham"). Hãy tưởng tượng có hai túi chữ đầy chữ. Một túi chứa đầy các từ được tìm thấy trong tin nhắn rác và túi còn lại có các từ được tìm thấy trong e-mail hợp pháp. Mặc dù bất kỳ từ nào có khả năng nằm ở đâu đó trong cả hai túi, túi "spam" sẽ chứa các từ liên quan đến spam như "chứng khoán", "Viagra" và "mua" thường xuyên hơn, trong khi túi "ham" sẽ chứa nhiều từ liên quan đến bạn bè hoặc nơi làm việc của người dùng.

Để phân loại thư e-mail, bộ lọc thư rác Bayes giả định rằng thư đó là một đống từ được đổ ngẫu nhiên từ một trong hai túi và sử dụng xác suất Bayesian để xác định túi nào có khả năng nằm trong túi đó.

Xem thêm

Ghi chú

  1. ^ McTear et al 2016, p. 167.
  2. ^ Harris, Zellig (1954). “Distributional Structure”. Word. 10 (2/3): 146–62. And this stock of combinations of elements becomes a factor in the way later choices are made... for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use
  3. ^ Lỗi chú thích: Thẻ <ref> sai; không có nội dung trong thẻ ref có tên sivic
  4. ^ Weinberger, K. Q.; Dasgupta A.; Langford J.; Smola A.; Attenberg, J. (2009). “Feature hashing for large scale multitask learning,”. Proceedings of the 26th Annual International Conference on Machine Learning: 1113–1120. arXiv:0902.2206. Bibcode:2009arXiv0902.2206W.

Tham khảo

  • McTear, Michael (et al) (2016). Giao diện hội thoại. Nhà xuất bản quốc tế Springer.

Read other articles:

Double TroubleIklan surat kabarSutradaraChristy CabanneDitulis olehChristy CabanneBerdasarkanDouble Troubleoleh Herbert QuickPemeranDouglas FairbanksSinematograferWilliam FildewPerusahaanproduksiFine Arts Film CompanyDistributorTriangle DistributingTanggal rilis 5 Desember 1915 (1915-12-05) Durasi50 menitNegaraAmerika SerikatBahasaBisuIntertitel Inggris Double Trouble adalah sebuah film komedi romansa bisu Amerika Serikat tahun 1915 yang ditulis dan disutradarai oleh Christy Cabanne, dip...

 

 

Ekek Cissa Cissa thalassinaTaksonomiKerajaanAnimaliaFilumChordataKelasAvesOrdoPasseriformesFamiliCorvidaeGenusCissa F. Boie, 1826 Spesies Cissa chinensis Cissa hypoleuca Cissa jefferyi Cissa thalassina lbs Cissa adalah genus yang terdiri atas kucica berekor pendek. Genus ini diperkenalkan oleh ahli ilmu hewan asal Jerman bernama Friedrich Boie pada tahun 1826. Cissa chinensis merupakan spesies tipe dalam genus ini.[1][2] Nama Cissa berasal dari kata berbahasa Yunani Kuno kissa...

 

 

العلاقات النمساوية الرواندية النمسا رواندا   النمسا   رواندا تعديل مصدري - تعديل   العلاقات النمساوية الرواندية هي العلاقات الثنائية التي تجمع بين النمسا ورواندا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه المقارنة...

Voce principale: Frosinone Calcio. Frosinone CalcioStagione 2006-2007Sport calcio Squadra Frosinone Allenatore Ivo Iaconi Presidente Maurizio Stirpe Serie B12º posto Coppa ItaliaPrimo turno Maggiori presenzeCampionato: Lodi (41) Miglior marcatoreCampionato: Lodi (11) StadioStadio Matusa Maggior numero di spettatori8 552 Juventus (1 maggio 2007) Minor numero di spettatori2 878 Pescara (13 marzo 2007) Media spettatori5 072 2005-2006 2007-2008 Si invita a seguire il modello...

 

 

Pour les articles homonymes, voir Mozilla. Mozilla Suite Le navigateur de la suite Mozilla. Informations Développé par Mozilla Foundation Dernière version 1.7.13 (21 avril 2006) Version avancée 1.8b1 (26 février 2005)[1],[2] Écrit en C++ et JavaScript Système d'exploitation Microsoft Windows Environnement Windows, Mac OS X, GNU/Linux Type Suite internet Licences MPL, GNU GPL et GNU LGPL Site web www.mozilla.org Chronologie des versions SeaMonkey modifier - modifier le code - voir Wiki...

 

 

Alberto Marchetti Nazionalità  Italia Calcio Ruolo Attaccante Termine carriera 1954 Carriera Giovanili ?-? Vicenza Squadre di club1 1938-1943 Vicenza116 (67)1944 Vicenza7 (8)1945-1946 Vicenza21 (6)1946-1949 Fiorentina79 (20)1949-1952 Vicenza107 (28)1952-1954 Marzotto Valdagno24 (2) Carriera da allenatore 1953-1954 Marzotto Valdagno1955 Marzotto Valdagno 1 I due numeri indicano le presenze e le reti segnate, per le sole partite di campionato....

Anti-war and anti-mobilization protests Further information: Russian invasion of Ukraine and Protests against the Russian invasion of Ukraine 2022 North Caucasian protestsPart of the Anti-war protests in Russia (2022–present) and 2022 Russian partisan movementDate21–30 September 2022 (2022-09-21 – 2022-09-30)LocationNorthern Caucasus regions, RussiaCaused by Mobilization in Russia Ramzan Kadyrov's rule in Chechnya Goals Cancellation of mobilization in the regions of ...

 

 

Artikel ini perlu diwikifikasi agar memenuhi standar kualitas Wikipedia. Anda dapat memberikan bantuan berupa penambahan pranala dalam, atau dengan merapikan tata letak dari artikel ini. Untuk keterangan lebih lanjut, klik [tampil] di bagian kanan. Mengganti markah HTML dengan markah wiki bila dimungkinkan. Tambahkan pranala wiki. Bila dirasa perlu, buatlah pautan ke artikel wiki lainnya dengan cara menambahkan [[ dan ]] pada kata yang bersangkutan (lihat WP:LINK untuk keterangan lebih lanjut...

 

 

Los Angeles FC 2024 soccer seasonLos Angeles FC2024 seasonGeneral managerJohn ThorringtonHead coachSteve CherundoloStadiumBMO StadiumMLSConference: 5thOverall: 9thU.S. Open CupRound of 16Leagues CupGroup stageBiggest winLAFC 5–0 NSH(3/23)Biggest defeatRSL 3–0 LAFC(3/2) Home colors Away colors ← 20232025 → The 2024 Los Angeles FC season is the club's seventh season in Major League Soccer, the top tier of the American soccer pyramid. LAFC plays its home matches at BMO ...

Wales-based multi sport organisation This article is about Cardiff Athletic Club. For the athletics club based at Cardiff International Sports Stadium, see Cardiff Amateur Athletic Club. Cardiff Athletic ClubCardiff Athletic Club, adjacent to the Millennium StadiumFormation1922Merger ofCardiff Rugby Football Club and Cardiff Cricket ClubHeadquartersCardiff Arms Park, Westgate Street, Cardiff, WalesChairmanKeith MorganWebsitewww.cardiffathleticclub.co.uk 51°28′46″N 3°10′56″W...

 

 

2020年夏季奥林匹克运动会波兰代表團波兰国旗IOC編碼POLNOC波蘭奧林匹克委員會網站olimpijski.pl(英文)(波兰文)2020年夏季奥林匹克运动会(東京)2021年7月23日至8月8日(受2019冠状病毒病疫情影响推迟,但仍保留原定名称)運動員206參賽項目24个大项旗手开幕式:帕维尔·科热尼奥夫斯基(游泳)和马娅·沃什乔夫斯卡(自行车)[1]闭幕式:卡罗利娜·纳亚(皮划艇)&#...

 

 

19th episode of the 7th season of The X-Files Hollywood A.D.The X-Files episodeMulder and Scully, aghast, watch the finished film, The Lazarus Bowl. Many critics commented on the self-referential tone of the episode, facilitated by use of the movie.Episode no.Season 7Episode 19Directed byDavid DuchovnyWritten byDavid DuchovnyProduction code7ABX18Original air dateApril 30, 2000 (2000-04-30)Running time44 minutesGuest appearances Mitch Pileggi as Walter Skinner Garry Shandli...

Species of mammal Abyssinian hare Conservation status Least Concern  (IUCN 3.1)[1] Scientific classification Domain: Eukaryota Kingdom: Animalia Phylum: Chordata Class: Mammalia Order: Lagomorpha Family: Leporidae Genus: Lepus Species: L. habessinicus Binomial name Lepus habessinicusHemprich & Ehrenberg, 1832[2] Abyssinian Hare range The Abyssinian hare (Lepus habessinicus) is a species of mammal in the family Leporidae. It is almost entirely restricted to the na...

 

 

Основная статья: 95-я стрелковая дивизия (2-го формирования) 75-я гвардейская стрелковая Бахмачская дважды Краснознамённая, ордена Суворова дивизия(75 гв.сд) Вооружённые силы ВС СССР Вид вооружённых сил сухопутные Род войск (сил) пехота Почётные наименования «Бахмачская» Фо...

 

 

NATO Headquarters in Belgium Not to be confused with Supreme Headquarters Allied Expeditionary Force. This article is about the supreme headquarters of NATO's Allied Command Operations (ACO), that commands all NATO operations. For NATO's political seat, see NATO headquarters. For the subordinate parts of ACO, see Allied Command Operations. SHAPE redirects here. For other uses, see Shape (disambiguation). Supreme Headquarters Allied Powers EuropeCoat of armsFounded1951Part ofNorth Atlanti...

2006 single by Cobra Starship featuring William Beckett, Travie McCoy and Maja IvarssonSnakes on a Plane (Bring It)Single by Cobra Starship featuring William Beckett, Travie McCoy and Maja Ivarssonfrom the album Snakes on a Plane: The Album and While the City Sleeps, We Rule the Streets ReleasedAugust 28, 2006[1]GenrePop punkLength3:19LabelNew LineDecaydanceFueled by RamenSongwriter(s)Sam HollanderDave KatzTravie McCoyGabe SaportaProducer(s)S*A*M and SluggoCobra Starship sing...

 

 

Dutch footballer Luigi Bruins Bruins with Feyenoord in August 2008Personal informationFull name Luigi Maud BruinsDate of birth (1987-03-09) 9 March 1987 (age 37)Place of birth Rotterdam, NetherlandsHeight 1.80 m (5 ft 11 in)Position(s) Attacking midfielderTeam informationCurrent team VV SmitshoekNumber 4Youth career1993–2004 ExcelsiorSenior career*Years Team Apps (Gls)2004–2007 Excelsior 66 (10)2007–2011 Feyenoord 90 (11)2011 Red Bull Salzburg 3 (0)2012 Excelsior 9 (...

 

 

У этого термина существуют и другие значения, см. 84-й полк. 84-й пехотный Ширванский полк Годы существования 9 июля 1724 — 1918 Страна  Российская империя Входит в 21-я пехотная дивизия 3-го Кавказского армейского корпуса. Тип Пехота Знаки отличия [см. «см. раздел»]  Медиаф�...

Chemical compound with isocyanide group (-N+≡C-) Not to be confused with Isocyanate. [ R − N ⊕ ≡ C ⊖ : ⟷ R − N ¨ = C : ] {\displaystyle \left[{\ce {R}}-{\overset {\oplus }{\ce {N}}}{\ce {#}}{\overset {\ominus }{\ce {C}}}{\ce {:\,<->R-{\ddot {N}}=C{:}}}\right]} General resonance structure of an isocyanide An isocyanide (also called isonitrile or carbylamine) is an organic compound with the functional group –N+≡C−. It is the isomer ...

 

 

Danemark aux Jeux olympiques d'été de 1912 Code CIO DEN Comité Comité olympique danois www.dif.dk Lieu Stockholm Participation 4e Athlètes 152 athlètes dont 151 hommes et 1 femme dans 13 sports Porte-drapeau Arne Højme MédaillesRang : 14 Or1 Arg.6 Bron.5 Total12 Danemark aux Jeux olympiques d'été Danemark aux Jeux olympiques de 1908 Danemark aux Jeux olympiques de 1916 modifier  Le Danemark aux Jeux olympiques de 1912 participe à ses 4e Jeux olympiques. Bilan global En d...