Medidas de similaridade

Em estatística e campos relacionados, uma medida de similaridade ou função de similaridade ou métrica de similaridade é uma função de valoreal que quantifica a similaridade entre dois objetos. Embora não exista uma definição única de similaridade, geralmente tais medidas são, em certo sentido, o inverso das métricas de distância: elas assumem maiores valores para objetos semelhantes e zero ou um valor negativo para objetos muito diferentes. Embora, em termos mais amplos, uma função de similaridade também possa satisfazer axiomas métricos.

A similaridade por cosseno é uma medida de similaridade comumente usada para vetores de valor real, usada (entre outros campos) na recuperação de informações para pontuar a similaridade de documentos no modelo de espaço vetorial . No aprendizado de máquina, as funções comum do Kernel, como o Kernel RBF, podem ser vistas como métricas de similaridade.[1]

Existem diferentes tipos de medidas de similaridade para vários tipos de objetos, dependendo dos objetos que estão sendo comparados. Para cada tipo de objeto existem várias fórmulas para métricas de similaridade.[2]

Similaridade entre dois pontos de dados

Semelhança entre strings

Semelhança entre duas distribuições de probabilidade

Semelhança entre dois conjuntos

Uso em análise de agrupamentos

Clustering ou análise de agrupamentos é uma técnica de mineiração de dados usada para descobrir padrões em dados agrupando objetos semelhantes. A técnica envolve o particionamento de um conjunto de pontos de dados em grupos ou clusters com base em suas semelhanças. Um dos aspectos fundamentais do clustering é como medir a similaridade entre os pontos de dados.

As medidas de similaridade desempenham um papel crucial em muitas técnicas de agrupamento, pois são usadas para determinar o quão intimamente relacionados dois pontos de dados estão e se eles devem ser agrupados no mesmo cluster. A medida de similaridade pode assumir muitas formas diferentes, dependendo do tipo de dados que está sendo agrupado e do problema específico que está sendo resolvido.

Uma das medidas de similaridade mais comumente usadas é a distância euclidiana, que é usada em muitas técnicas de agrupamento, incluindo K-means e agrupamento hierárquico. A distância euclidiana é uma medida da distância em linha reta entre dois pontos em um espaço de alta dimensão. É calculado como a raiz quadrada da soma das diferenças quadradas entre as coordenadas correspondentes dos dois pontos. Por exemplo, se tivermos dois pontos de dados e , a distância euclidiana entre eles é

Fig: Mapa de calor da região HIST1, localizada no cromossomo 13 do camundongo nas seguintes coordenadas: [21,7 Mb, 24,1 Mb].

Outra medida de similaridade comumente usada é o Índice de Jaccard ou similaridade de Jaccard, que é usado em técnicas de agrupamento que trabalham com dados binários, como dados de presença/ausência [3] ou dados booleanos; A similaridade Jaccard é particularmente útil para técnicas de agrupamento que trabalham com dados de texto, onde pode ser usada para identificar agrupamentos de documentos semelhantes com base em seus recursos compartilhados ou palavras-chave [4]. É calculado como o tamanho da interseção de dois conjuntos dividido pelo tamanho da união dos dois conjuntos.

As semelhanças entre 162 perfis nucleares relevantes são testadas usando o índice de Jaccard (veja a figura com o mapa de calor). A similaridade de Jaccard do perfil nuclear varia de 0 a 1, com 0 indicando nenhuma similaridade entre os dois conjuntos e 1 indicando similaridade perfeita com o objetivo de agrupar o perfil nuclear mais similar.

A distância de Manhattan, também conhecida como geometria do táxi, é uma medida de similaridade comumente usada em técnicas de agrupamento que trabalham com dados contínuos. É uma medida da distância entre dois pontos em um espaço de alta dimensão, calculada como a soma das diferenças absolutas entre as coordenadas correspondentes dos dois pontos .

Em agrupamento espectral, uma medida de similaridade ou afinidade é usada para transformar dados para superar dificuldades relacionadas à falta de convexidade na forma da distribuição de dados.[5] A medida dá origem a uma matriz de similaridade de tamanho para um conjunto de n pontos, onde a entrada na matriz pode ser simplesmente a (recíproca da) distância euclidiana entre e , ou pode ser uma medida de distância mais complexa, como a similaridade Gaussiana .[5] Modificar ainda mais esse resultado com técnicas de análise de rede também é comum.[6]

A escolha da medida de similaridade depende do tipo de dados que está sendo agrupado e do problema específico que está sendo resolvido. Por exemplo, trabalhando com dados contínuos, como dados de expressão gênomica, a distância euclidiana ou a similaridade de cosseno podem ser apropriadas. Já com dados binários como a presença de um loci genômico em um perfil nuclear, o índice de Jaccard pode ser mais apropriado. Por fim, trabalhando com dados organizados em uma estrutura de grade, como dados de processamento de imagem ou sinal, a distância de Manhattan é particularmente útil para o agrupamento.

Uso em sistemas de recomendação

Medidas de similaridade também são ferramentas para desenvolver sistemas de recomendação, observando a percepção do usuário e gosto em relação a vários itens. Em sistemas de recomendação, o método usa um cálculo de distância como Distância Euclidiana ou Similaridade por Cosseno para gerar um Matriz de Similaridade com valores que representam a similaridade de qualquer par de alvos. Então, analisando e comparando os valores na matriz, é possível combinar dois alvos com a preferência de um usuário ou vincular usuários com base em suas notas. Nesse sistema, é relevante observar o próprio valor e a distância absoluta entre dois valores.[7] A coleta desses dados pode indicar a probabilidade de uma marca para um usuário, bem como o quão próximas duas marcas são rejeitadas ou aceitas. É possível então recomendar a um usuário alvos com alta similaridade aos seus gostos.

Os sistemas de recomendação são observados em múltiplas plataformas de entretenimento online, em redes sociais e sites de streaming. A lógica para a construção desses sistemas é baseada em medidas de similaridade.[8]

Uso em alinhamento de sequências

As matrizes de similaridade são usadas no alinhamento de sequências . Pontuações mais altas são dadas para características mais semelhantes e pontuações mais baixas ou negativas para características diferentes.

As matrizes de similaridade de nucleotídeos são usadas para alinhar sequências de ácidos nucleicos. Como existem apenas quatro nucleotídeos comumente encontrados no DNA (Adenina (A), Citosina (C), Guanina (G) e Timina (T)), as matrizes de similaridade de nucleotídeos são muito mais simples do que as matrizes de similaridade de proteínas. Por exemplo, uma matriz simples atribuirá a bases idênticas uma pontuação de +1 e bases não idênticas uma pontuação de -1. Uma matriz mais complicada daria uma pontuação mais alta para transições (mudanças de uma pirimidina como C ou T para outra pirimidina, ou de uma purina como A ou G para outra purina) do que para transversões (de uma pirimidina para uma purina ou vice-versa). A proporção de correspondência/incompatibilidade da matriz define a distância evolutiva alvo.[9][10] A matriz de DNA +1/-3 usada pelo BLASTN é mais adequada para encontrar correspondências entre sequências que são 99% idênticas; uma matriz +1/−1 (ou +4/−4) é muito mais adequada para sequências com cerca de 70% de similaridade. Matrizes para sequências de menor similaridade requerem alinhamentos de sequência mais longos.

As matrizes de semelhança de aminoácidos são mais complicadas, porque existem 20 aminoácidos codificados pelo código genético e, portanto, um número maior de substituições possíveis. Portanto, a matriz de similaridade para aminoácidos contém 400 entradas (embora geralmente seja simétrica). A primeira abordagem marcou todas as mudanças de aminoácidos igualmente. Um refinamento posterior foi determinar as semelhanças de aminoácidos com base em quantas mudanças de base foram necessárias para alterar um códon para codificar aquele aminoácido. Este modelo é melhor, mas não leva em conta a pressão seletiva das mudanças de aminoácidos. Modelos melhores levaram em consideração as propriedades químicas dos aminoácidos.

Uma abordagem possível é gerar empiricamente as matrizes de similaridade. O método Dayhoff usou árvores filogenéticas e sequências retiradas de espécies da árvore. Esta abordagem deu origem à série de matrizes PAM. As matrizes PAM são rotuladas com base em quantas alterações de nucleotídeos ocorreram, por 100 aminoácidos. Embora as matrizes PAM se beneficiem de ter um modelo evolutivo bem compreendido, elas são mais úteis em distâncias evolutivas curtas (PAM10–PAM120). Em longas distâncias evolutivas, por exemplo PAM250 ou 20% de identidade, foi demonstrado que as matrizes BLOSUM são muito mais eficazes.

As séries BLOSUM foram geradas comparando um número de sequências divergentes. A série BLOSUM é rotulada com base em quanta entropia permanece inalterada entre todas as sequências, portanto, um número BLOSUM mais baixo corresponde a um número PAM mais alto.

Referências

  1. Vert, Jean-Philippe; Tsuda, Koji; Schölkopf, Bernhard (2004). «A primer on kernel methods». Kernel Methods in Computational Biology. [S.l.: s.n.] 
  2. https://iq.opengenus.org/similarity-measurements/ "Different Types of Similarity measurements"
  3. Chung, Neo Christopher; Miasojedow, BłaŻej; Startek, Michał; Gambin, Anna (2019). «Jaccard/Tanimoto similarity test and estimation methods for biological presence-absence data». BMC Bioinformatics (em inglês). 20 (S15). 644 páginas. ISSN 1471-2105. doi:10.1186/s12859-019-3118-5 
  4. International MultiConference of Engineers and Computer Scientists : IMECS 2013 : 13-15 March, 2013, the Royal Garden Hotel, Kowloon, Hong Kong. Hong Kong: Newswood Ltd. 2013. ISBN 978-988-19251-8-3. OCLC 842831996 
  5. a b Ng, A.Y.; Jordan, M.I.; Weiss, Y. (2001), «On Spectral Clustering: Analysis and an Algorithm», MIT Press, Advances in Neural Information Processing Systems, 14: 849–856 
  6. Li, Xin-Ye; Guo, Li-Jie (2012), «Constructing affinity matrix in spectral clustering based on neighbor propagation», Neurocomputing, 97: 125–130, doi:10.1016/j.neucom.2012.06.023 
  7. Bondarenko, Kirill (2019), Similarity metrics in recommender systems, consultado em 25 de abril de 2023 
  8. Javed, Mahnoor (2020), «Using Cosine Similarity to Build a Movie Recommendation System», Towards Data Science, consultado em 25 de abril de 2023 
  9. States, D; Gish, W; Altschul, S (1991). «Improved sensitivity of nucleic acid database searches using application-specific scoring matrices». Methods: A Companion to Methods in Enzymology. 3 (1). 66 páginas. CiteSeerX 10.1.1.114.8183Acessível livremente. doi:10.1016/S1046-2023(05)80165-3 
  10. Sean R. Eddy (2004). «Where did the BLOSUM62 alignment score matrix come from?» (PDF). Nature Biotechnology. 22 (8): 1035–6. PMID 15286655. doi:10.1038/nbt0804-1035. Cópia arquivada (PDF) em 3 de setembro de 2006 

Bibliografia

Read other articles:

Japan Student Services Organization日本学生支援機構Nihon Gakusei Shien KikōInformasi lembagaDibentuk01 April 2004 (2004-04-01)Kantor pusatNagatsuta-cho, Midori-ku, Yokohama, Prefektur Kanagawa, JepangSitus webwww.jasso.go.jp Japan Student Services Organization (日本学生支援機構code: ja is deprecated , Nihon Gakusei Shien Kikō) adalah Lembaga Administrasi Independen (lembaga yang dikelola di bawah tujuan jangka menengah) yang terutama menyediakan program beasiswa dan duk...

 

Untuk Ketua Majelis Ulama Indonesia (MUI) sekaligus putranya, lihat Abdul Malik Karim Amrullah. Abdul Karim AmrullahBiografiKelahiran10 Februari 1879 Kematian2 Juni 1945 (66 tahun)Jakarta Data pribadiKelompok etnikOrang Minangkabau AgamaIslam KegiatanPekerjaanUlama KeluargaPasangan nikahRaihanah Rafi'ah Syafiyah Siti Hindun AnakFatimah Karim AmrullahHamkaAbdul Kuddus KarimAbdul Wadud Karim AmrullahAbdul Bari Orang tuaMuhammad Amrullah , Tarwasa KerabatAhmad Rasyid Sutan Mansur (menantu) ...

 

Bassel KhartabilNama asalباسل خرطبيلLahir(1981-05-22)22 Mei 1981Damaskus, SuriahMeninggal3 Oktober 2015(2015-10-03) (umur 34)[1][2]Rumah Tahanan Adra, SuriahKebangsaanSuriahPekerjaanInsinyur perangkat lunakDikenal atasAiki Framework, Openclipart, Open Font Library, Fabricatorz, Mozilla, Creative CommonsSuami/istriNoura Ghazi ​(m. 2013⁠–⁠2015)​PenghargaanIndex on Censorship 2013 Digital Freedom AwardTanda tan...

{{{الاسم}}} [[ملف:{{{لاتيني}}} IAU.svg|250px|{{{لاتيني}}}]] المساحة 657 درجة مربعة  الكوكباتالحدودية الزرافة،  وحامل رأس الغول،  والثور،  والتوأمان،  والوشق  تعديل مصدري - تعديل   كوكبة ممسك الأعنة / Auriga صفحة من كتاب صور الكواكب الثابتة للصوفي تظهر فيها كوكبة ممسك الأعنة ك�...

 

2024 Indian filmNaguvina Hoogala MeleTheatrical release posterDirected byVenkat BharadwajWritten byAbhishek Iyengar (dialogues)Screenplay byVenkat BharadwajStory byVenkat BharadwajProduced byK. K. RadhamohanStarringAbhishek Das Sharanya ShettyCinematographyPramod BharateeyaEdited byChandan P.Music byLovv Pran MehtaProductioncompanySri Sathya Sai ArtsRelease date 9 February 2024 (2024-02-09) CountryIndiaLanguageKannada Naguvina Hoogala Mele (transl. On the flowers of laugh...

 

Russian politician In this name that follows Eastern Slavic naming customs, the patronymic is Vladimirovich and the family name is Plyakin. Vladimir PlyakinMPВладимир Плякинofficial portrait, circa 2021Member of the State Duma (Party List Seat)IncumbentAssumed office 12 October 2021 Personal detailsBorn (1981-09-19) 19 September 1981 (age 42)Kuybyshev, RSFSR, USSRPolitical partyNew PeopleEducationSamara Academy of State and Municipal ManagementMoscow City Pedagogica...

Konrad von Limpurg diangkat menjadi kesatria oleh nyonya besar dalam Kodeks Manesse (awal abad ke-14) Kekesatriaan, atau kode kekesatriaan, adalah kode etik informal dan beragam yang berkembang antara 1170 dan 1220, yang tak pernah diputuskan atau dijelaskan dalam sebuah dokumen tunggal, yang diasosiasikan dengan institusi abad pertengahan dari sifat kesatria; perilaku kesatria dan wanita tangguh diatur oleh kode sosial kekesatriaan.[1] Gagasan kekesatriaan dipopulerisasikan dalam sas...

 

هذه المقالة ليس بها أي وصلات لمقالاتٍ أخرى للمساعدة في ترابط مقالات ويكيبيديا. فضلًا ساعد في تحسين هذه المقالة بإضافة وصلات إلى المقالات المتعلقة بها الموجودة في النص الحالي. (مايو 2024) تشانكيا   معلومات شخصية اسم الولادة (بالسنسكريتية: Kauṭilya or Vishnu Gupta)‏،  و(بالكورنية: Kau...

 

SGO48Informasi latar belakangAsalHo Chi Minh City, VietnamGenrePopTahun aktif2018 (2018)–2021Artis terkaitAKB48 GroupSitus webwww.sgo48.vnAnggotaAnggota SGO48 SGO48 (SaiGOn48) adalah sebuah grup vokal perempuan idola Jepang yang berbasis di Ho Chi Minh City (Saigon), Vietnam. Grup tersebut adalah grup saudari keenam AKB48 di luar Jepang, setelah JKT48, BNK48, MNL48, AKB48 Team SH dan AKB48 Team TP. Sejarah Formasi SGO48 Pada 21 Juni 2018, AKS Co. mengumumkan pembentukan SGO48, yang ber...

1984 South Korean filmMulleya MulleyaTheatrical poster for Mulleya Mulleya (1984)Hangul여인 잔혹사 물레야 물레야Hanja女人 殘酷史 물레야 물레야Revised RomanizationYeoin Janhoksa Mulleya MulleyaMcCune–ReischauerYŏin Chanhoksa Mulleya Mulleya Directed byLee Doo-yong[1]Written byIm ChoongProduced byJeong Woong-kiStarringWon Mi-kyungShin Il-ryongCinematographyLee Seong-choonEdited byLee Kyung-jaMusic byJeong Yoon-jooProductioncompaniesHanRim Films Co., Ltd.Release ...

 

مجدي الصالح مناصب نقيب   في المنصب2015  – 2018  في نقابة المهندسين–مركز القدس  وزير الحكم المحلي   في المنصب13 أبريل 2019  – 31 مارس 2024  مجلس الوزراء حكومة محمد اشتية  حسين الأعرج  سامي حجاوي  عضو مجلس إدارة المجلس الأعلى للإبداع والتميز   تولى المنصب1 أب...

 

Greek journalist and politician Stavros TheodorakisΣταύρος ΘεοδωράκηςTheodorakis in 2014Leader of The RiverIn office26 February 2014 – 24 November 2019Preceded byPosition establishedSucceeded byNone Personal detailsBorn (1963-02-21) 21 February 1963 (age 61)Drapanias, GreecePolitical partyThe River (2014–2019) Stavros Theodorakis (Greek: Σταύρος Θεοδωράκης [ˌstavros θeoðoˈracis]; born 1963) is a Greek journalist and politician, w...

Le Guangyun (chinois simplifié : 广韵 ; chinois traditionnel : 廣韻 ; pinyin : Guǎngyùn, Wades-Gilles : Kuang Yün, littéralement Rimes étendues) est un dictionnaire de rimes chinois qui fut confectionné de 1007 à 1008 sous le règne de l'Empereur Song Zhenzong. Chen Pengnian (陳彭年, 961–1017) et Qiu Yong (邱雍) en furent les éditeurs responsables. Première page du Guangyun. C'est une révision et un accroissement de l'influent dictio...

 

Superliga de Voleibol Masculina 2014-2015 Competizione Superliga de Voleibol Masculina Sport Pallavolo Edizione 51ª Organizzatore RFVB Date dall'11 ottobre 2014al 3 maggio 2015 Luogo  Spagna Partecipanti 12 Risultati Vincitore  Almería(10º titolo) Secondo  Teruel Retrocessioni  Emevé Statistiche Miglior marcatore Thomas Zass (451)[1] Incontri disputati 120 Cronologia della competizione 2013-2014 2015-2016 Manuale La Superliga de Voleibol Masculin...

 

هذه مقالة غير مراجعة. ينبغي أن يزال هذا القالب بعد أن يراجعها محرر؛ إذا لزم الأمر فيجب أن توسم المقالة بقوالب الصيانة المناسبة. يمكن أيضاً تقديم طلب لمراجعة المقالة في الصفحة المخصصة لذلك. (سبتمبر 2022) كتاب إتحاف فضلاء البشر بالقراءات الأربعة عشر، المسمى: منتهى الأماني والمس...

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus. Cet article ne cite pas suffisamment ses sources (mai 2020). Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ». En pratique : Quelles sources sont attendues ? Comme...

 

Ambrogio che incorona Vuolvino magister phaber Vuolvino o Volvinio (in latino Magister phaber Volvinius) (IX secolo – IX secolo) è stato un monaco cristiano e orafo italiano, autore dell'Altare di Sant'Ambrogio nella basilica di Sant'Ambrogio a Milano. È uno dei più antichi esempi di artista italiano che dopo l'età classica abbia lasciato la propria firma su un'opera. Storia e descrizione L'altare, firmato e databile tra l'824 e l'859, fu commissionato dal vescovo di Milano Angilberto I...

 

Not to be confused with Lyonesse or Olympique Lyonnais. This article is about a historical province of France. For other uses, see Lyonnais (disambiguation). This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Lyonnais – news · newspapers · books · scholar · JSTOR (February 2024) (Learn how and when to remove th...

Short sword or large dagger For other uses, see Sica (disambiguation). Outline of a sica The sica is a short sword or large dagger of ancient Illyrians, Thracians, and Dacians; it was also used in Ancient Rome. It is a shorter form of the falx, and the root of the word is the same as the modern sickle.[1] It was originally depicted as a curved sword (see the Zliten mosaic as well as numerous oil lamps) and many examples have been found in what are today Croatia, Albania, Bosnia and He...

 

Pour les articles homonymes, voir Mayer. Kevin Mayer Kevin Mayer en 2019 lors du Meeting de Paris. Informations Disciplines Épreuves combinées Site officiel mayerkevin.com Nationalité Français Naissance 10 février 1992 (32 ans) Argenteuil Taille 1,85 m (6′ 1″) Masse 82 kg (180 lb) Club ACM (Athletic Club Montpellier) Entraîneur Alexandre Bonacorsi Jérôme Simian Records - Décathlon : 9 126 pts (2018, record du monde)- Heptathlon : 6...