O índice de Jaccard, também conhecido como coeficiente de similaridade de Jaccard, é uma estatística usada para medir a similaridade e a diversidade de conjuntos de amostras . Ele foi desenvolvido por Grove Karl Gilbert em 1884 como sua razão de verificação (v)[1] e agora é frequentemente mencionado como Índice de Sucesso Crítico em meteorologia. Mais tarde, foi desenvolvido de forma independente por Paul Jaccard, originalmente dando o nome francês "coefficient de communauté",[2] e formulado de forma independente novamente por T. Tanimoto.[3] Assim, em algumas áreas também são usados os nomes índice de Tanimoto ou coeficiente de Tanimoto. No entanto, eles são idênticos em geral, considerando a proporção da interseção em relação à união. O coeficiente de Jaccard mede a similaridade entre conjuntos finitos de amostras, e é definido como o tamanho da interseção dividido pelo tamanho da união dos conjuntos de amostras:
Observe que, por construção, Se a interseção de A e B for vazia, então J(A,B) = 0. O coeficiente de Jaccard é amplamente utilizado em ciência da computação, ecologia, genômica e outras ciências, que utilizam dados binários ou binarizados. Tanto a solução exata quanto métodos de aproximação estão disponíveis para testar hipóteses com o coeficiente de Jaccard.[4]
A similaridade de Jaccard também se aplica a "bags", ou seja, multiconjuntos . Isso tem uma fórmula semelhante,[5] mas os símbolos significam interseção de multiconjuntos e soma de multiconjuntos (não união). O valor máximo é 1/2.
A distância Jaccard, que mensura diferença entre conjuntos de amostras, é complementar ao coeficiente de Jaccard e é obtido pela subtração do coeficiente de 1, ou, igualmente, pela divisão da diferença entre os tamanhos da união e interseção de dois conjuntos pelo tamanho da união:
Uma interpretação alternativa da distância de Jaccard é como a razão entre o tamanho da diferença simétrica e a união. A distância de Jaccard é comumente usada para calcular uma matriz n × n para agrupamento e escalonamento multidimensional de n conjuntos de amostras.
Esta distância é uma métrica na coleção de todos os conjuntos finitos.[6][7][8]
Deve-se ter cuidado se ou , pois essas fórmulas não estão bem definidas nesses casos.
Similaridade de atributos binários assimétricos
Dados dois objetos, A e B, com n atributos binários cada um, o coeficiente Jaccard é uma medida útil da sobreposição que A e B compartilham através de seus atributos. Cada atributo de A e B podem ser 0 ou 1. O número total de cada combinação de atributos, de ambos A e B, são dados pelo seguinte:
representa o número total de atributos em que A e B têm o valor 1.
representa o número total de atributos onde o atributo de A é 0 e o atributo de B é 1.
representa o número total de atributos onde o atributo de A é 1 e o atributo de B é 0.
representa o número total de atributos onde A e B têm um valor de 0.
Cada atributo deve se encaixar em uma dessas quatro categorias, ou seja:
Então, coeficiente de similaridade Jaccard, J, é dado por:
E a distância Jaccard, dJ, e dado por:
Análises estatísticas podem ser feitas baseando-se nos coeficientes de similaridade Jaccard, e consequentemente métricas relacionadas.[9] Dados dois conjuntos de amostras A e B com n atributos, um teste estatístico pode ser conduzido para avaliar se uma sobreposição tem significância estatística. A solução exata é possível, porém os custos computacionais podem aumentar quanto maior o valor de n.[10]Métodos estimativos são possíveis por distribuição multinomial ou por bootstrapping.
Diferença do coeficiente de correlação simples (SMC)
Quando usado para atributos binários, o índice Jaccard é muito similar ao coeficiente de correlação simples. A diferença principal é que o SMC tem o termo no numerador e no denominador, enquanto o índice Jaccar não o tem. Portanto, o SMC leva em conta tanto presenças mútuas (quando um atributo está presente em ambos conjuntos) e ausências mútuas (quando um atributo está ausente em ambos conjuntos) enquanto combina e compara com o número total de atributos no universo, enquanto o índice Jaccard considera apenas presenças mútuas enquanto combina e compara com o número de atributos que foram escolhidos por ao menos um de dois conjuntos.
Na análise da cesta de mercado, por exemplo, a cesta de dois clientes que desejamos comparar pode conter apenas uma pequena fração de todos os produtos disponíveis na loja, então o SMC normalmente vai informar um valor muito alto de similaridades, mesmo que as cestas carreguem pouquíssima semelhança, tornando assim o índice Jaccard mais apropriado para mensurar similaridade neste contexto. Por exemplo, considere um supermercado que 1000 produtos e dois clientes. A cesta do primeiro cliente contém sal e pimenta e a cesta do segundo contém sal e açúcar. Neste cenário, a similaridade entre as duas cestas medida pelo índice Jaccard seria de 1/3, mas seria 0.998 usando o SMC.
Em outros contextos, onde 0 e 1 carregam informações equivalentes (simetria), o SMC é uma medição de similaridade melhor. Por exemplo, vetores de variações demográficas armazenadas em variáveis fictícias (ou variáveis dummy), como gênero, seriam melhor comparados com o SMC que com o índice Jaccard já que o impacto do gênero na similaridade deve ser igual, independentemente se "macho" é definido como 0 e "fêmea" como 1 ou o oposto. Entretanto, quando temos variáveis fictícias simétricas, pode-se replicar o comportamento do SMC separando as variáveis em dois atributos binários (neste caso, macho e fêmea), e assim transformando-os em atributos assimétricos, permitindo o uso do índice Jaccard sem introduzir viéses. Ainda assim, o SMC permanece mais eficiente do ponto de vista computacional em casos de variáveis fictícias simétricas, já que não requer dimensões extras.
Similaridade e distância Jaccard ponderadas
Se e são dois vetores com reais, então o coeficiente de similaridade Jaccard deles (também conhecido como similaridade de Ruzicka) é definido por:
E a distância Jaccard (também conhedida como distância Soergel) por:
Com ainda mais generalidades, se e são duas funções mensuráveis não-negativas em um espaço mensurável com medida , então podemos definir:
Onde and são operadores pontuais. Então a distância Jaccard é:
Então, por exemplo, para dois conjuntos mensuráveis , temos que onde e são funções características do conjunto correspondente.
Distância e similaridade Jaccard de probabilidades
A similaridade ponderada Jaccard descrita anteriormente generaliza o índice Jaccard para vetores positivos, onde um conjunto corresponde a um vetor bináriodado pela função indicadora,ou seja . Contudo, ela não generaliza o índice Jaccard para distribuições de probabilidades, onde um conjunto corresponde a uma distribuição de probabilidades uniforme, ou seja:
É sempre menor se os conjuntos diferem em tamanho. Se , e então:
Em vez disso, uma generalização que é contínua entre distribuições de probabilidades e seus conjuntos de suporte correspondentes é:
É chamada de "Probabilidade" Jaccard.[11] Tem os vínculos a seguir com o Jaccard Ponderado em vetores de probabilidade.
Aqui o vínculo superior é o coeficiente Sørensen–Dice (ponderado). A distância correspondente, , é uma métrica sobre distribuições de probabilidade, e uma pseudométrica sobre vetores não-negativos.
O Índice de Probabilidade Jaccard tem uma interpretação geométrica como a área de uma interseção de simplices. Todo ponto em uma unidade -simplex corresponde a uma distribuição de probabilidade em elementos, porque a unidade -simplex é um conjunto de pontos em dimensões que a soma resulta em 1. Para derivar o Índice de Probabilidade Jaccard geometricamente, represente a distribuição de probabilidade como uma unidade simplex dividida em subsimplices, de acordo com a massa de cada item. Se você sobrepor duas distribuições representadas desta maneira, e cruzar as simplices correspondentes de cada item, a área que permaneçe é igual ao Índice de Probabilidade Jaccard das distribuições.
Otimização do Índice de Probabilidade Jaccard
Considere o problema de construir variáves aleatórias tais que estas colidam entre si o máximo possível. Isto é, se e , gostaríamos de construir e para maximizar . Se olharmospara apenas duas distribuições isoladas, o maior que obtemos é dado por onde é a distância da Variação Total. Entretando, suponha que não estamos apenas almejando maximizar este par em particular, mas maximizar a probabilidade de colisão de qualquer par arbitrário. É possível construir um número infinito de variáveis aleatórias, uma para cada distribuição , e buscar a maximização de para todos os pares . Pode-se assumir que a Índice de Probabilidade Jaccard é uma forma otimizada de alinhar estas variáveis aleatórias, como descrito abaixo:
Para qualquer método de amostragem e distribuições discretas , se então para uns onde e , ou ou .[11]
Isto é, nenhum método de amostragem pode retornar mais colisões que em um par sem retornar menos colisões que em outro par, onde o par reduzido é mais similar sob que o par aumentado. Este teorema é válido para o Índice Jaccard de conjuntos (se interpretado como distribuições uniformes) e a probabilidade Jaccard, mas não para o Jaccard ponderado. (Este teorema usa o termo "método de amostragem" para descrever uma distribuição conjunta sobre todas distribuições em um espaço, pois deriva do uso de algoritmos ponderados minhashing que retornam isto como suas probabilidades de colisão.)
Este teorema tem uma prova visual em três distribuições de elementos usando a representação simplex.
Similaridade e distância Tanimoto
Várias formas de função descritas como similaridade Tanimoto e distância Tanimoto ocorrem na literatura e Internet. A maioria destas são sinônimos da similaridade Jaccard e distância Jaccard, mas têm diferenças matemáticas. Várias fontes[12] citam um Relatório Técnico IBM[3] como referência seminal. O relatório está disponível em várias bibliotecas.
Em "A Computer Program for Classifying Plants" ("Um programa computacional para classificar plantas", em português), publicado em Outubro de 1960,[13] um método de classificação baseado na razão de similaridade, e um função de distância derivada, são apresentados. Aparentemente, esta é a principal fonte para o significado dos termos "similaridade Tanimoto" e "distância Tanimoto". A razão de similaridade é equivalente à similaridade Jaccard, mas a função de distância não é equivalente à distância Jaccard.
As definições de Tanimoto para similaridade e distância
Neste artigo, a "razão de similaridade" é dada na forma de bitmaps, onde cada bit de uma malha de tamanho fixo representa a presença ou ausência de uma característica na planta sendo modelada. A definição da razão é o número de bits em comum, dividido pelo número de conjuntos de bits (isto é, não-zero) em cada amostra.
Apresentando em termos matemáticos, se amostras X e Y são bitmaps, é o ith bit de X, e são operadores lógicos "e, ou" respectivamente, então a razão de similaridade é:
Em vez disso, se cada amostra é modelada como um conjunto de atributos, este valor é igual ao coeficiente Jaccard de dois conjuntos. Jaccard não é citado neste artigo, e parece que os autores não estavam cientes desta relação.
Tanimoto continua a definir o "coeficiente de distância" baseado nesta razão, definida por bitmaps como similaridade não-zero:
Este coeficinte não é, deliberadamente, uma métrica de distância. Foi escolhido permitir a possibilidade de dois espécimes, que são bem diferentes entre si, a serem similares a um terceiro. É fácil construir um exemplo que refuta a propriedade da desigualdade triangular.
Outras definições da distância Tanimoto
A distância Tanimoto é comumente mencionada, erroneamente, como um sinônimo da distância Jaccard . Esta função é uma métrica de distância apropriada. A "distância Tanimoto" é comumente definida como sendo uma métrica de distância apropriada, provavelmente devido à esta confusão com a distância Jaccard.
Se a similaridade Jaccard ou Tanimoto é expressa por um vetor bit, então pode ser escrita como:
Onde o mesmo cálculo é expresso em termos de produto e magnitude de vetor escalar. Esta representação baseia-se no fato de que, para um vetor bit (onde o valor de cada dimensão é 0 ou 1):
e
Está é uma representação potencialmente confusa, pois a função expressa sobre vetores é mais genérica, a não ser que seu domínio seja restrito explicitamente. Propriedade de não se estendem necessariamente à . Particularmente, a função diferencial não preserva a desigualdade triangular, portanto não é uma métrica de distância apropriada, enquanto o é.
Há um risco real de que a combinação da "distância Tanimoto" sendo definida usando esta fórmula, em conjunto com a declaração "a distância Tanimoto é uma métrica de distância apropriada" levará à falsa conclusão de que a função é de fato uma métrica de distância sobre vetores ou multiconjuntos em geral, enquanto seu uso na busca por similaridades ou aglutinação de algoritmos pode falhar na produção de resultados corretos.
Lipkus[7] usa a definição da similaridade de Tanimoto que é equivalente à , e refere-se a distância Tanimoto como a função ..Porém, é esclarecido no artigo que o contexto é restrito pelo uso de um vetor ponderado (positivo) tal que, para qualquer vetor A sendo considerado, Sob estas circunstâncias, a função é uma métrica de distância apropriada, e então um conjunto de vetores governado por tal vetor ponderado forma um espaço métrico sob esta função.
Índice Jaccard em matrizes de confusão de classificação binária
Em matrizes de confusão usadas para classificação binária, o índice Jaccard pode ser arranjado na seguinte fórmula:
Onde TP são os positivos reais, FP os falsos positivos e FN os falsos negativos.[14]
↑ abTanimoto TT (17 de novembro de 1958). «An Elementary Mathematical theory of Classification and Prediction». Internal IBM Technical Report. 1957 (8?)
↑ abLipkus AH (1999). «A proof of the triangle inequality for the Tanimoto distance». Journal of Mathematical Chemistry. 26 (1–3): 263–265. doi:10.1023/A:1019154432472
↑ abMoulton R, Jiang Y (2018). «Maximally Consistent Sampling and the Jaccard Index of Probability Distributions». International Conference on Data Mining, Workshop on High Dimensional Data Mining: 347–356. ISBN978-1-5386-9159-5. arXiv:1809.04052. doi:10.1109/ICDM.2018.00050
↑For example Intelligent Surveillance Systems. [S.l.]: Springer. 2011. ISBN978-94-007-1137-2
Jean Auguste MargueritteLahir15 January 1823 (1823-01-15)Manheulles, FranceMeninggal6 September 1870(1870-09-06) (umur 47)Beauraing, BelgiaPengabdianKekaisaran Prancis KeduaLama dinas1837–1870PangkatGénéral de divisionKomandan1st Resimen Chasseurs d'AfriquePerang/pertempuranIntervensi Prancis di MeksikoPerang Prancis-PrusiaPertempuran SedanHubunganPaul MargueritteVictor Margueritte Jean Auguste Margueritte (15 Januari 1823 – 6 September 1870), adalah seorang...
The SandboxCompany typeSubsidiaryIndustryVideo gameFoundedMay 2011; 12 years ago (2011-05)Founder Adrien Duermaël Arthur Madrid Sébastien Borget Products The Sandbox The Addams Family Mystery Mansion Wonder Park Magic Rides Goosebumps: Horror Town Snoopy's Town Tale Garfield: Survival of the Fattest Number of employees27 (2018)ParentAnimoca BrandsWebsitewww.sandbox.game TSB Gaming (formerly known as Pixowl), doing business and commonly known as The Sandbox, is a...
برتران كلوزيل معلومات شخصية الميلاد 12 ديسمبر 1772[1][2][3] الوفاة 21 أبريل 1842 (69 سنة) [1][2][3] مواطنة فرنسا مناصب حاكم الجزائر في المنصب12 أغسطس 1830 – 21 فبراير 1831 دي بورمن بيار بيرتيزين حاكم الجزائر في المنصب8 يوليو 1835 – 12 فبر�...
العلاقات الغانية الغواتيمالية غانا غواتيمالا غانا غواتيمالا تعديل مصدري - تعديل العلاقات الغانية الغواتيمالية هي العلاقات الثنائية التي تجمع بين غانا وغواتيمالا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه الم...
В Википедии есть статьи о других людях с фамилией Герен. Морис де Геренфр. Maurice de Guérin Дата рождения 4 августа 1810(1810-08-04)[1] Место рождения Андийак Дата смерти 19 июля 1839(1839-07-19)[2][3][…] (28 лет) Место смерти Андийак Гражданство (подданство) Франция Образование Ко�...
Посольство Российской Федерации в Япониияп. 在日ロシア連邦大使館 Россия Япония Адрес 〒106-0041東京都港区麻布台2-1-1 Посол Николай Ноздрев Сайт tokyo.mid.ru/ru/ Медиафайлы на Викискладе Посо́льство Росси́йской Федера́ции в Япо́нии (яп. 在日ロシア連邦大使館 Дзайнити Росиа Рэмпо: тайсика�...
1988–90 concert tour by Bon Jovi Jersey Syndicate TourTour by Bon JoviCover of tour programmeAssociated albumNew JerseyStart dateOctober 31, 1988 (1988-10-31)End dateFebruary 17, 1990 (1990-02-17)Legs8No. of shows61 in Europe7 in Asia151 in North America10 in Australasia9 in South America238 totalBon Jovi concert chronology Slippery When Wet Tour(1986–87) New Jersey Syndicate Tour(1988–90) Keep the Faith Tour(1993) The Jersey Syndicate Tour (also known as T...
Song and single by Yoko Ono She Gets Down on Her KneesSong by Yoko Onofrom the album A Story ReleasedJuly 1997Recorded1974Length4:50LabelRykodiscSongwriter(s)Yoko OnoProducer(s)Yoko Ono, David Spinozza She Gets Down on Her KneesSong by Yoko Onofrom the album Season of Glass Released8 June 1981Recorded1981StudioThe Hit Factory, New York CityLength4:13LabelGeffenSongwriter(s)Yoko OnoProducer(s)Yoko Ono, Phil Spector She Gets Down on Her KneesSingle by Yoko OnoReleased7 February 2012Genre Rock d...
American actor and acting teacher (1905-1997) Sanford MeisnerBorn(1905-08-31)August 31, 1905Brooklyn, New York City, U.S.DiedFebruary 2, 1997(1997-02-02) (aged 91)Sherman Oaks, Los Angeles, California, U.S.Other namesSandyOccupationsActoracting teacherYears active1924–1997Spouses Peggy Meredith (m. 1948; div. 1950)Betty Gooch (divorced)PartnerJames Carville Sanford Meisner (August 31, 1905 – February 2, 1997) was an Americ...
Возможно, эта статья содержит оригинальное исследование. Проверьте соответствие информации приведённым источникам и удалите или исправьте информацию, являющуюся оригинальным исследованием. В случае необходимости подтвердите информацию авторитетными источниками. В �...
Soviet ultraviolet space telescope AstronMission typeAstrophysical researchOperatorUSSRCOSPAR ID1983-020A [1]SATCAT no.13901Mission duration8 years Start of missionLaunch date23 March 1983 12:45 (1983-03-23UTC12:45) UTCRocketProton-K/D-1 8K82K/11S824MLaunch siteTYURATAM MISSILE AND SPACE COMPLEX End of missionDisposalDecommissionedDeactivatedMarch 23, 1991 Orbital parametersReference systemGeocentricRegimeHigh EarthSemi-major axis108,531 km (67,438 mi) ...
إبراهيم يسري معلومات شخصية الميلاد 20 أبريل 1950 القاهرة الوفاة 20 أبريل 2015 (65 سنة) الجيزة سبب الوفاة قصور كلوي مواطنة مصر الأولاد هنا يسريمحمد يسري الحياة العملية المهنة ممثل اللغة الأم العربية اللغات العربية سنوات النشاط 1984 -2015 المواقع IMDB صف...
Cet article est une ébauche concernant une unité ou formation militaire britannique. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. 44e régiment royal de chars Création 1938 Pays Royaume-Uni Allégeance Land Command Branche British Army Type Régiment blindé Guerres Seconde Guerre mondiale Batailles Bataille de Normandie modifier Char Matilda Mark II du 44e RTR durant un entraînement à Worthin...
لمعانٍ أخرى، طالع علي بيغلو (توضيح). علي بيغلو تقسيم إداري البلد إيران إحداثيات 37°44′26″N 45°04′47″E / 37.74055556°N 45.07972222°E / 37.74055556; 45.07972222 تعديل مصدري - تعديل علي بيغلو هي قرية في مقاطعة أرومية، إيران. عدد سكان هذه القرية هو 913 في سنة 2006.[1] مراجع ^ تعد�...
Canadian computer scientist J. Ian MunroBorn (1947-07-10) July 10, 1947 (age 76)Alma materUniversity of New BrunswickUniversity of British ColumbiaUniversity of TorontoKnown forAlgorithms and data structuresSuccinct data structureImplicit data structureScientific careerFieldsComputer ScienceInstitutionsUniversity of WaterlooThesis Some Results in the Study of Algorithms (1971)Doctoral advisorAllan Borodin James Ian Munro (born July 10, 1947)[1] is a Canadian compu...
Al-HilalCalcio Segni distintiviUniformi di gara Casa Trasferta Dati societariCittàOmdurman Nazione Sudan ConfederazioneCAF Federazione SFA Fondazione1930 Presidente Hosham Hassan Allenatore Florent Ibengé StadioAl-Hilal(35 000 posti) PalmarèsTitoli nazionali30 Campionati sudanesi Trofei nazionali8 Coppe di Sudan Si invita a seguire il modello di voce L'Al-Hilal Al-Sudany Club for Physical Education, noto anche come Al-Hilal Omdurman, è una società calcistica sudanese di Omdurma...
ProfesorLászló LovászLászló Lovász berpidato pada 2007 di EPFLLahirLovász László09 Maret 1948 (umur 76)Budapest, Republik HungariaKebangsaanHungaria, Amerika SerikatAlmamaterUniversitas Eötvös LorándAkademi Sains HungariaPenghargaanAbel Prize (2021) Kyoto Prize in Basic Sciences (2010)John von Neumann Theory Prize (2006)Gödel Prize (2001)Knuth Prize (1999)Wolf Prize (1999)Fulkerson Prize (1982)Pólya Prize (SIAM) (1979)Karier ilmiahBidangMatematika, Ilmu komputerInstitusiUn...
Sengwa Fluss in Simabwe Rivers that emptys into the Kabira Reservoirs with the Sengw (center) Sengwa River is a river in Zimbabwe. As of 2012, this river is not dead as if 2024]. vteRivers of ZimbabweRivers Bubye Chiredzi Gwayi Honde Inkankezi Insiza Inyankuni Kwe Kwe Limpopo Luenha Manyame Mazowe Mtshabezi Mtshelele Mucheke Munyati Mupfure Mushawe Mutirikwe Mwenezi Mwewe Mtetengwe Mzingwane Ncema Ngezi (Masvingo) Ngezi (Midlands) Ngondoma Panhane Pungwe Runde Save Sebakwe Sengwa Shangani Sh...
American financial fraudster Allen StanfordStanford in 2009BornRobert Allen Stanford (1950-03-24) March 24, 1950 (age 74)Mexia, Texas, U.S.NationalityAmericanAntiguanCitizenshipUnited StatesAntigua and BarbudaEducationEastern Hills High SchoolBaylor University, BA, finance (1974)Occupation(s)Former Chairman and CEO Stanford Financial Group (now defunct)Known forBusinessman in the financial services sector, Ponzi scheme, involvement in Stanford Super SeriesSpouseSusan Stanford (separ...