Model booleà

El model booleà de recuperació d'informació (MBRI) és un model de recuperació d'informació clàssic (RI) i, alhora, el primer i més adoptat. És un model utilitzat per molts sistemes de recuperació d'informació d'avui dia.[1]

Definicions

La recuperació d'informació es basa en la lògica Booleana i en la teoria de conjunt clàssica en el qual tant els documents que s'han buscat com la consulta de l'usuari es conceben com a conjunts de termes. La recuperació es basa en si els documents contenen els termes de la consulta o no. Donat un conjunt finit

T = {t1, t2, ..., tj, ..., tm}

d'elements anomenats termes d'índex (per exemple paraules o expressions -que poden ser reduïts a la paraula arrel- que descriuen o caracteritzen documents com ara paraules clau donades per a un article de revista), un conjunt finit

D = {D1, ..., Di, ..., Dn}, on Di és un element del conjunt de les parts de T

dels elements anomenats documents. Donat una expressió Booleana -en una forma normal- Q fa una consulta de la manera següent:

Q = (Wi O Wk O ...) I ... I (Wj O Ws O ...),
Amb Wi=ti, Wk=tk, Wj=tj, Ws=ts, o Wi=NO ti, Wk=NO tk, Wj=NO tj, Ws=NO ts

On ti significa que el terme ti és present dins el document Di, mentre que NO ti significa que no hi és.

De manera equivalent, Q pot ser donat en una forma normal disjuntiva, també. Una operació de recuperació, consistent en dos passos, és definida de la manera següent:

1. Els conjunts Sj dels documents són obtinguts perquè contenen o no el terme tj (depenent de si Wj=tj o Wj=NO tj) :
Sj = {Di|Wj Element de Di}
2. Aquells documents són recuperats dins la resposta a Q que són el resultat de les operacions de conjunts corresponents, per exemple la resposta a Q seria de la següent manera:
UNIÓ (INTERSECCIÓ Sj)

Exemple

El conjunt de documents de l'original (real), per exemple

O = {O1, O2, O3}

on

O1 = Principi de Bayes: el principi que, calculant un paràmetre, inicialment hauria d'assumir que cada valor possible té probabilitat igual (una distribució prèvia uniforme).

O2 = Teoria de la Decisió Bayesiana: una teoria matemàtica de la presa de decisions que suposa funcions d'utilitat i de probabilitat, i segons la qual l'acte de ser elegit és l'acte de Bayes, és a dir, el de més utilitat esperada subjectivament. Si un tingués temps il·limitat i la potència de càlcul amb la qual prendre cada decisió, aquest procediment seria la millor manera de prendre-la.

O3 = Epistemology bayesiana: una teoria filosòfica que sosté que l'estat epistèmic d'una proposició (és a dir com de bé provada o ben establerta que és) es mesura millor per una probabilitat i que la forma correcta de revisar aquesta probabilitat ve donada pel condicionament bayesià o procediments similars. Un epistemòleg bayesià faria servir la probabilitat per definir, i per explorar la relació entre, conceptes com ara l'estat epistèmic, suport o poder explicatiu.

Deixeu que el conjunt T de termes sigui:

T = {t1 = Principi de Bayes', t2 = probabilitat, t3 = presa de decisió, t4 = epistemologia bayesiana}

Llavors, el conjunt D dels documents queda de la següent manera:

D = {D1, D2, D3}

on

D1 = {Principi de Bayes, probabilitat}

D2 = {probabilitat, presa de decisió}

D3 = {probabilitat, epistemologia bayesiana}

Deixeu que la consulta Q sigui:

Q = probabilitat I presa de decisió

1. En primer lloc, els conjunts següents S1 i S2 de documents Di són obtinguts (recuperats):

S1 = {D1, D2, D3}

S2 = {D2}

2. Finalment, els documents següents Di són recuperats dins la resposta de Q: {D1, D2, D3} INTERSECCIÓ {D2} = {D2}

Això significa que el document original O2 (corresponent a D2) és la resposta a Q.

Evidentment, si hi ha més d'un document amb la mateixa representació, cada document serà recuperat. Aquests documents són, en el RIB (recuperació d'informació booleana), indistingibles (o, en altres paraules, equivalents).

Avantatges

  • Formalisme net
  • Fàcil d'implementar
  • Concepte intuïtiu

Desavantatges

  • Algoritmes de patrons de text, poden recuperar o pocs documents o massa documents
  • Difícil de traduir una consulta a una expressió Booleana
  • Tots els termes són ponderats de la mateixa manera
  • Serveix més com a recuperació de dades que com a recuperació d'informació

Estructures de dades i algoritmes

Des d'un punt de vista matemàtic formal pur, el MBRI és senzill. Des d'un punt de vista pràctic, tanmateix, s'han de resoldre diversos problemes addicionals que es relacionen amb els algoritmes i les estructures de dades, com ara, per exemple, l'elecció dels termes (selecció manual o automàtica o tots dos), stemming, taules de valors, fitxers d'arxiu invertits, etc.[2]

Conjunts de valors

Una altra possibilitat és per utilitzar taules de valors. Cada document és representat per una taula que conté cada terme sol d'aquell document. Des que la mida de la taula de valors augmenta i disminueix en temps real amb l'addició i eliminació de termes, cada document ocuparà molt menys espai a la memòria. No obstant això, tindrà una desacceleració en el rendiment, ja que les operacions són més complexes que amb vectors de bits. En el pitjor dels casos el rendiments es pot degradar d'O (n) a O (n 2). En el cas intermedi, l'alentiment del rendiment no serà molt pitjor que en els vectors de bits i l'ús d'espai és molt més eficient.

Referències

  1. Lancaster, F. W.; Fayen, E. G.. Information Retrieval On-Line (en anglès). Los Angeles, Calfornia: Melville Publishing Co., 1973. 
  2. Wartik, Steven. «Boolean operations». A: Information Retrieval Data Structures & Algorithms (en anglès). Prentice Hall, Inc., 1992. ISBN 0-13-463837-9. 

Bibliografia

Read other articles:

John RutseyInformasi latar belakangNama lahirJohn Howard RutseyLahir(1952-07-23)23 Juli 1952Meninggal11 Mei 2008(2008-05-11) (umur 55)TorontoGenreHard rock, heavy metalPekerjaanMusisiInstrumenDrum, perkusi, vokalTahun aktif1963–1974LabelMercury RecordsArtis terkaitRushSitus webwww.rush.com John Howard Rutsey (23 Juli 1952 – 11 Mei 2008) adalah seorang drummer Kanada, paling dikenal sebagai anggota pendiri Rush bersama dengan Alex Lifeson dan Jeff Jones, dan tampil di band debut album...

 

Ini adalah nama Maluku, Tanimbar, marganya adalah Oratmangun Drs.Djauhari Oratmangun Duta Besar Indonesia untuk Tiongkok ke-12PetahanaMulai menjabat 20 Februari 2018PresidenJoko Widodo PendahuluSugeng RahardjoPenggantiPetahanaDuta Besar Indonesia untuk Rusia ke-20Masa jabatan2011–2016PresidenSusilo Bambang YudhoyonoJoko Widodo PendahuluHamid AwaluddinPenggantiMohamad Wahid Supriyadi Informasi pribadiLahir22 Juli 1957 (umur 66)Beo, Sulawesi Utara, Republik IndonesiaSuami/istriSih El...

 

Turkish politician Atilla KoçMinister of Culture and TourismIn office21 February 2005 – 29 August 2007Preceded byErkan MumcuSucceeded byErtuğrul Günay Personal detailsBorn (1946-03-01) March 1, 1946 (age 78)Aydın, TurkeyChildrenZehra Zümrüt Selçuk Atilla Koç (born March 1, 1946) is a Turkish politician of the Justice and Development Party. He was the Minister of Culture and Tourism in the first cabinet of Recep Tayyip Erdogan.[1] After graduating from Ankara Un...

kayu lapis yang terbuat dari kayu lunak dari pohon cemara. Kayu lapis atau sering disebut tripleks adalah sejenis papan pabrikan yang terdiri dari lapisan kayu (venir kayu) yang direkatkan bersama-sama. Kayu lapis merupakan salah satu produk kayu yang paling sering digunakan. Kayu lapis bersifat fleksibel, murah, dapat dibentuk, dapat didaur ulang, dan tidak memiliki teknik pembuatan yang rumit. Kayu lapis biasanya digunakan untuk menggunakan kayu solid karena lebih tahan retak, susut, atau b...

 

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Februari 2023. SDI At-TaqwaSekolah Dasar Islam At-TaqwaInformasiJenisSwastaAkreditasiANomor Statistik Sekolah102016409015 / 101000Nomor Pokok Sekolah Nasional20109114Kepala SekolahMohamad RosidKurikulum2013 plusJumlah siswa445 2010StatusAktifAlamatLokasiJl...

 

Cet article est une ébauche concernant une entreprise chinoise et Hong Kong. Vous pouvez partager vos connaissances en l’améliorant (comment ?). Une page sur une entreprise étant sujette à controverse, n’oubliez pas d’indiquer dans l’article les critères qui le rendent admissible. Pour les articles homonymes, voir Watson. Groupe A.S. Watson Création 1828 Slogan « We Bring More to Life »(« Nous apportons plus à la vie ») Siège social Sha Tin H...

Marie-Antoine CarêmeLahir8 Juni 1784Paris, PrancisMeninggal12 Januari 1833 (48 tahun)Paris, PrancisNama lainAntonin CarêmePekerjaanJuru masak (Chef)Penulis[1] Marie-Antoine Carême (8 Juni 1784 – 12 Januari 1833) adalah seorang juru masak Prancis yang dikenal sebagai Raja para Juru Masak dan Juru Masak para Raja.[2] Ia memperkenalkan gaya memasak yang dikenal sebagai grande cuisine.[3] Carême bekerja untuk raja, kepala negara dan orang-orang ka...

 

Tacoma-class patrol frigate For other ships with the same name, see USS Evansville. History United States NameEvansville NamesakeCity of Evansville, Indiana ReclassifiedPF-70, 15 April 1943 BuilderLeathem D. Smith Shipbuilding Company, Sturgeon Bay, Wisconsin Yard number313 Laid down28 August 1943 Launched27 November 1943 Sponsored byMrs. Don Davis Commissioned4 December 1944 Decommissioned4 September 1945[1] FateTransferred to the Soviet Navy, 4 September 1945 AcquiredReturned by Sov...

 

1951 French filmThe Black CrownMaría Félix in the filmDirected byLuis SaslavskyScreenplay byJean Cocteau Charles de Peyret-Chappuis Luis SaslavskyBased onLa Vénus d'Ille by Prosper MériméeProduced byCesáreo GonzálezStarringMaría Félix Rossano Brazzi Vittorio GassmanCinematographyAntonio L. Ballesteros Valentín JavierEdited byJosé Antonio RojoMusic byJuan QuinteroProductioncompanySuevia FilmsDistributed bySuevia FilmsRelease date 23 May 1951 (1951-05-23) Running time1...

この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています(詳細)。 数字の大字(だいじ)は、漢数字の一種。通常用いる単純な字形の漢数字(小字)の代わりに同じ音の別の漢字を用いるものである。 概要 壱万円日本銀行券(「壱」が大字) 弐千円日本銀行券(「弐」が大字) 漢数字には「一」「二」「三」と続く小字と、「壱」「�...

 

Ця стаття потребує додаткових посилань на джерела для поліпшення її перевірності. Будь ласка, допоможіть удосконалити цю статтю, додавши посилання на надійні (авторитетні) джерела. Зверніться на сторінку обговорення за поясненнями та допоможіть виправити недоліки. Мат...

 

H&M

Hennes & Mauritz ABToko H&M di Gandaria City, Jakarta SelatanJenisAktiebolagKode emitenOMX: HM BIndustriEceranPendahuluHennesDidirikan1947; 77 tahun lalu (1947) (dengan nama Hennes)Västerås, SwediaPendiriErling PerssonKantorpusatStockholm, SwediaCabang4,958 (as of 28 February 2019)[1]Wilayah operasiSeluruh duniaTokohkunciStefan Persson (Chairman) Karl-Johan Persson (Presiden dan CEO)ProdukPakaian, aksesoriPendapatanUS$25.191 billion (2016)[2]Laba opera...

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (يوليو 2019) كريستوفر غالفن معلومات شخصية الميلاد 21 مارس 1950 (74 سنة)  مواطنة الولايات المتحدة  الحياة العملية المهنة صاحب أعمال  تعديل مصدري - تعديل   كريستوفر غا�...

 

  关于1930年成立的萨尔瓦多共产党,请见「萨尔瓦多共产党」。 共產黨 欧洲 挪威红党 挪威共产党 瑞典共产党 (1995年) 瑞典共产党 (2005年) 芬兰共产党 (1994年) 丹麦共产党 爱沙尼亚共产党 (1990年) 拉脱维亚社会党 立陶宛社会主义人民阵线 白俄罗斯共产党 白俄罗斯左翼党“公正世界” 烏克蘭共產黨 摩尔多瓦共和国共产党人党 德涅斯特河沿岸的共产党 俄罗斯联邦共产�...

 

2020 Kansas Lottery 300 Race details[1][2] Race 30 of 33 in the 2020 NASCAR Xfinity Series season Kansas SpeedwayDate October 17, 2020 (2020-10-17)Location Kansas Speedway in Kansas City, KansasCourse Permanent racing facility1.50 mi (2.41 km)Distance 200 laps, 300.0 mi (482.80 km)Average speed 112.735 mphPole positionDriver Noah Gragson JR Motorsports Grid positions set by competition-based formulaMost laps ledDriver Chase Briscoe Stewart-Haas RacingLaps 159Win...

Set of words that make up a song For other uses, see Lyrics (disambiguation). Lyrics in sheet music. This is a homorhythmic (i.e., hymn-style) arrangement of a traditional piece entitled Adeste Fideles (the original Latin lyrics to O Come, All Ye Faithful) in standard two-staff format for mixed voices. Playⓘ Lyrics are words that make up a song, usually consisting of verses and choruses. The writer of lyrics is a lyricist. The words to an extended musical composition such as an opera are, h...

 

Island in French Polynesia For the town in Thailand, see Hua Hin. Commune in French Polynesia, FranceHuahineCommuneNASA picture of Huahine viewed from the north FlagLocation of Huahine Coordinates: 16°44′S 151°00′W / 16.73°S 151.0°W / -16.73; -151.0CountryFranceOverseas collectivityFrench PolynesiaSubdivisionLeeward IslandsGovernment • Mayor (2020–2026) Marcelin Lisan[1]Area175 km2 (29 sq mi)Population (2022)[2&...

 

Railway line in Shanghai using magnetic levitation train This article is about the Maglev system in Shanghai. For other uses, see SMT (disambiguation). Further information on other modes of public transport in Shanghai: Public transport in Shanghai Shanghai maglev train lineShanghai maglev train lineShanghai maglev trainOverviewOther name(s)Shanghai TransrapidAirport express line (with extension to Hongqiao Railway Station, not to be confused with Airport link)Shanghai-Hangzhou maglev lin...

Norwegian diplomat and politician (born 1957) This article is about the Norwegian politician. For the Ylvis song, see Ylvis. Jan EgelandBorn (1957-09-12) 12 September 1957 (age 66)Stavanger, Rogaland, NorwayAlma materUniversity of Oslo (Mg)University of California, BerkeleyOccupationSecretary General of the Norwegian Refugee CouncilKnown forHumanitarian workPolitical partyLabour PartySpouseAnne Kristin SydnesChildren2 Jan Egeland (born 12 September 1957) is a Norwegian diplomat...

 

Tambra jawa Tor tambra Status konservasiKekurangan dataIUCN188012 TaksonomiKerajaanAnimaliaFilumChordataKelasActinopteriOrdoCypriniformesFamiliCyprinidaeGenusTorSpesiesTor tambra (Cuvier, 1842) Tata namaProtonimBarbus tambra lbs Tor tambra, tambra Jawa, adalah spesies semah asli Asia Tenggara . Ekologi Umum untuk semua spesies semah, tambra jawa adalah omnivora, terkadang memakan buah beracun saat sungai yang didiaminya membanjiri hutan; ini mungkin membuat mereka tidak dapat dimakan untuk se...