Partitionnement spectral

En informatique théorique, le partitionnement spectral ou spectral clustering en anglais, est un type de partitionnement de données prenant en compte les propriétés spectrales de l'entrée. Le partitionnement spectral utilise le plus souvent les vecteurs propres d'une matrice de similarités. Par rapport à des algorithmes classiques comme celui des k-moyennes, cette technique offre l'avantage de classer des ensembles de données de structure « non-globulaire », dans un espace de représentation adéquat.

Ce partitionnement est notamment utilisé en intelligence artificielle, où le terme classification spectrale renvoie au fait de faire de la classification non-supervisée en utilisant ce type de partitionnement.

Définition

Le partitionnement spectral est une méthode de partitionnement en K groupes reposant sur la minimisation d'un critère de type « coupe » (coupe simple à K=2, ou coupe multiple à K≥2). Ces deux mesures expriment la cohésion interne des groupes, relativement à leur dissociation les uns des autres. Elles sont directement fonctions d'une matrice de similarités entre objets, notée S.

Étant donné un ensemble de N objets, il est possible d'obtenir une représentation détaillée de cet ensemble sous la forme d'un graphe pondéré (cf. théorie des graphes), noté G(V,E,S). V désigne l'ensemble des N nœuds du graphe, correspondant aux objets ; E est l'ensemble des arcs inter-nœuds et S est la matrice de poids des arcs (matrice de similarités), symétrique et non négative (Sij indiquant la similarité entre les objets xi et xj).

Exemple de graphe pondéré des données (en rouge, la coupe du graphe souhaitée).

Dans le but de résoudre le problème d'optimisation du critère de coupe défini précédemment, le partionnement spectral s'appuie sur l'utilisation du spectre de la matrice de similarités des données en vue du partitionnement de l'ensemble des objets dans un espace de plus faible dimension. On a alors un problème de partitionnement de graphe pour lequel les nœuds d'un même groupe sont similaires et les nœuds appartenant à des groupes différents sont dissimilaires[1].

Les différents types de graphes pondérés

L'objectif de la construction d'un graphe pondéré est de rendre compte (ou de modéliser) les relations de voisinage entre les objets. Il existe alors plusieurs façons de procéder :

  • Graphe de voisinage ε  : connexion des nœuds pour lesquels la similarité Sij est supérieure à ε,
  • Graphe des k plus proches voisins  : connexion du ie nœud avec le je nœud si et seulement si l'objet xj fait partie des k plus proches voisins de l'objet xi.
  • Graphe totalement connecté  : connexion de tous les nœuds entre eux et pondération des arcs de liaison par la valeur de Sij.

Construction de la matrice de similarités S

Dans la littérature, plusieurs techniques permettent d'obtenir une mesure de similarité entre deux objets. Le choix de la fonction de similarité dépend essentiellement du domaine de provenance des données (par exemple, fouille de documents, fouille de données web, etc.), mais également du type de données (qui peuvent être décrit par des variables numériques, catégorielles, binaires, etc.). Cependant, les deux formules les plus répandues et les plus utilisées sont :

  • Noyau Gaussien[2] :

avec d étant une mesure de distance (de type Euclidienne, Manhattan, Minkowski, etc.), et σ, un paramètre d'échelle dont la valeur est fixé par l'utilisateur.

  • Distance cosinus[3] :

avec B désignant la matrice de données (constituée de N objets décrits chacun par M attributs) normalisée en ligne.

Construction de l'espace spectral

Les algorithmes de partitionnement spectral utilisent l'information contenue dans les vecteurs propres d'une matrice laplacienne (construite à partir de la matrice de similarités S) afin de détecter une structure des données. Soit D, la matrice diagonale des degrés (D=diag(D11,...,DNN)) telle que :

représente le degré du ie nœud du graphe G. Il est alors possible de construire la matrice laplacienne L en utilisant une des nombreuses normalisations présentes dans la littérature :

  • Aucune normalisation[4] :
  • Normalisation par division[5] :
  • Normalisation par division symétrique[6] :
  • Normalisation additive[7] :

(avec dmax désignant le degré maximum de D et I étant la matrice identité). L'étape suivante consiste à extraire les vecteurs propres de la matrice laplacienne. Il est démontré que l'utilisation des K (nombre de groupes souhaité) premiers vecteurs propres orthogonaux de L (correspondant aux K plus petites valeurs propres), permet d'obtenir un espace de projection de plus faible dimension (en K dimensions) que l'espace original (en N dimensions). La matrice X est alors construite en stockant ces vecteurs propres (en colonnes) : . Parmi les algorithme de calcul des valeurs propres, on peut citer la méthode de la puissance itérée.

Partitionnement des données dans l'espace spectral

Le partitionnement des données est alors effectué sur la matrice X. En effet, la première étape consiste à considérer chaque ligne de cette matrice comme représentant un objet dans l'espace spectral (en K dimensions). La seconde étape est alors d'appliquer un algorithme de classification non-supervisée sur cette matrice. Le partitionnement des données en K groupes se résume alors à l'affectation de l'objet original xi au groupe k si et seulement si la ie ligne de X a été affectée au groupe k.

Bien que l'algorithme de partitionnement utilisé le plus souvent dans la littérature soit l'algorithme des K-moyennes, il est tout à fait envisageable d'utiliser n'importe quelle autre méthode non-supervisée afin de classer les différents objets[8],[9].

Applications

  • Indexation et recherche par le contenu[4],
  • Recherche de documents Web[10],
  • Segmentation d'images[5],
  • Analyse de marchés,
  • Analyse de documents[11],
  • Classification non-supervisée.

Notes et références

  1. « Von Luxburg U., A Tutorial on Spectral Clustering. Statistics and Computing, vol. 17(4), p. 395-416, 200 7 »
  2. « Zelnik-Manor L., Perona P., Self-tuning spectral clustering. Advances in Neural Information Processing Systems, vol. 17, p. 1601-1608, 2004 »
  3. « Salton G., Automatic Text Processing: the transformation, analysis and retrieval of information by computer. Addison-Wesley, 1989 »
  4. a et b « Deerwester S., Dumais S., Landauer T., Furnas G., Harshman R., Indexing by latent semantic analysis. Journal of the American Society of Information Science, vol. 41(6), p. 391-407, 1990 »
  5. a et b « Meila M., Shi J., Learning segmentation by random walks. Advances in Neural Information Processing Systems, p. 470-477, 2000 »
  6. « Ng A., Jordan M., Weiss Y., On spectral clustering: Analysis and an algorithm. JProceedings of Advances in Neural Information Processing Systems, p. 849-856, 2002 »
  7. « Kamvar S., Klein D., Manning C., Spectral Learning. 18th International Joint Conference on Artificial Intelligence, p. 561-566, 200 3 »
  8. « Lang K., Fixing two weaknesses of the spectral method. Advances in Neural Information Processing Systems, p. 715-722, 2006 »
  9. « Bach F., Jordan M., Learning spectral clustering. Advances in Neural Information Processing Systems, p. 305-312, 2004 »
  10. « Kurucz M., Benczur A., Csalogany K., Lucacs L., Spectral Clustering in Social Networks. Advances in Web Mining and Web usage Analysis, 2009 »
  11. « Brew C., Schulte im Walde S., Spectral clustering for german verbs. Proceedings of EMNLP-2002, 2002 »

Read other articles:

En este artículo se detectaron varios problemas. Por favor, edítalo y/o discute los problemas en la discusión para mejorarlo: Necesita ser wikificado conforme a las convenciones de estilo de Wikipedia. Carece de fuentes o referencias que aparezcan en una fuente acreditada. Este aviso fue puesto el 21 de febrero de 2017. Falange Socialista Boliviana Presidente Gustavo Sejas RevolloLíder Óscar Únzaga (1937-1959)Mario Gutiérrez Gutiérrez (1959-1980)Fundación 15 de agosto de 1937Ide...

Quinto gabinete ministerial del Gobierno de Pedro CastilloGabinete Chávez El Gabinete Chávez, el 25 de noviembre de 2022.Información generalÁmbito Perú PerúPresidente de la República Pedro CastilloPresidenta del Consejo de Ministros Betssy ChávezFormación 25 de noviembre de 2022Disolución 7 de diciembre de 2022 (12 días)Composición del gabineteN.º de ministerios 19Partido (s) PL - JP - FACoalición (es) PDElecciónElección 2021Sucesión Castillo IV Quinto gabinete ministerial de...

Luc Borrelli Informações pessoais Nome completo Luc Borrelli Data de nascimento 2 de julho de 1965 Local de nascimento Marselha,  França Nacionalidade francês Data da morte 3 de fevereiro de 1999 (33 anos) Altura 1,83 m Informações profissionais Período em atividade 1986–1999 Posição Goleiro Clubes de juventude 1978–1986 ASPTT Marseille Clubes profissionais Anos Clubes Jogos e gol(o)s 1986–19931993–19951995–19981998–1999 Toulon Paris Saint-Germain...

Brazilian footballer Kelvin Kelvin with Porto in 2013Personal informationFull name Kelvin Mateus de Oliveira[1]Date of birth (1993-06-01) 1 June 1993 (age 30)[1]Place of birth Curitiba, Brazil[1]Height 1.73 m (5 ft 8 in)[1]Position(s) WingerTeam informationCurrent team RyukyuNumber 34Youth career2003–2010 ParanáSenior career*Years Team Apps (Gls)2010–2011 Paraná 27 (6)2011–2014 Porto B 31 (4)2011–2012 → Rio Ave (loan) 22 (0)2012�...

Go SpotGenreInfotainmenPresenterAlycia EvitaSyntia Fitriyani LayinahPengisi suaraLady MarlinaNegara asalIndonesiaBahasa asliBahasa IndonesiaJmlh. musim19Jmlh. episode7.100 (berjalan 19 September 2023)ProduksiDurasi1 jam 30 menit (Hari kerja)30 menit (akhir pekan)Rumah produksiMedia Nusantara Citra (2004-2018)Starpro (2018-sekarang)RilisJaringan asliRCTI Celebrities TVRilis asliSenin, 12 April 2004 –sekarang Go Spot adalah sebuah acara televisi berformat infotainmen di RCTI. Acara ini m...

Пам’ятник «Старшинам Армії УНР — уродженцям міста Києва» Старшинам Армії УНР уродженцям м. Києва 50°30′03″ пн. ш. 30°29′32″ сх. д. / 50.5009611° пн. ш. 30.4923444° сх. д. / 50.5009611; 30.4923444Тип пам'ятникКраїна  Україна : ISO3166-1 alpha-3:UKR; ISO3166-1 цифровий:804...

英国国籍和国籍法 概述 英國國籍法(历史(英语:History of British nationality law)) 英國國民的种类 英国公民 英籍人士 英國海外領土公民 英國國民(海外) 英國海外公民 受英國保護人士 参见 英聯邦公民 英国护照 英國國民(海外)護照 英国居留权 无限期居留 本土人身份(英语:Belonger status) 国籍法与前殖民地 爱尔兰(英语:British nationality law and the Republic of Ireland)香�...

Russian radio station This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Radio Rossii – news · newspapers · books · scholar · JSTOR (February 2021) (Learn how and when to remove this template message) Radio RossiiMoscowBroadcast areaRussiaFrequencyMoscow 66.44 MHz OIRT-FM and more than 1,500 other transmitters,...

2016年に開催された第1回BRICS U-17サッカー杯で優勝したU-17サッカーブラジル代表(ファトルダ・スタジアム) U-17サッカーブラジル代表(ポルトガル語: Seleção Brasileira de Futebol Sub-17)は、17歳以下の選手で構成されるブラジル代表のサッカーチーム。 代表Aチームと同様にセレソン(ポルトガル語: Seleção)の略称でも親しまれ、ブラジルサッカー連盟の統括下にあ�...

Football tournamentScottish Women's CupOrganising bodyScottish Women's FootballFounded1970Region ScotlandNumber of teams67Related competitionsSWFL Cup, SWPL CupCurrent championsCelticMost successful club(s)Glasgow City – 9 winsWebsiteScottish Women's Football official site 2022–23 Scottish Women's Cup The Scottish Women's Cup is the national knockout cup competition for women's football in Scotland.[1] First held in 1970–71, the competition is owned and managed by Scottish ...

1954 book by Louise Fatio and also a series of books First edition (publ. McGraw Hill) The Happy Lion (ISBN 0-375-82759-5) is a 1954 children's picture book by Louise Fatio and illustrated by Roger Duvoisin.[1] The tale follows a Happy Lion in France who, after escaping the small zoo where he lives, is surprised that people, who loved visiting him there, are now scared of him. The book was so popular that it spawned several sequels and an 8-minute short film by Weston Woods Studi...

One of the last battles of the New Zealand Wars Te Kooti's WarPart of New Zealand WarsPurported drawing of Te Kooti published 1869 (top);two of his banners (bottom)DateJuly 1868 – May 1872LocationEast Coast and central North Island, New ZealandBelligerents  United Kingdom: Colony of New Zealand Ngāti Porou Ngāti Kahungunu  Ringatū adherents Pai Mārire adherents Ngāi Tūhoe Ngāti Hineuru RongowhakaataCommanders and leaders George Whitmore Thomas ...

この項目では、鹿児島県の鹿児島湾(錦江湾)にある火山について説明しています。その他の用法については「桜島 (曖昧さ回避)」をご覧ください。 御岳(桜島) 桜島(2009年2月6日)標高 1,117 m所在地 日本 鹿児島県鹿児島市位置 北緯31度35分19秒 東経130度39分17秒 / 北緯31.58861度 東経130.65472度 / 31.58861; 130.65472 (桜島)座標: 北緯31度35分19秒 東経130�...

Dışişleri Bakan Yardımcısı G. Amanatidis'in 126. Avrupa Konseyi Bakanlar Komitesi (Sofya) Oturumundaki Konumu, 2016 Avrupa Konseyi Bakanlar Komitesi (İngilizce: The Committee of Ministers of the Council of Europe, Fransızca: Comité des ministres du Conseil de l'Europe) veya Bakanlar Komitesi (Fransızca: Comité des ministres), Avrupa Konseyi'nin karar alma organıdır. Tüm üye devletlerin Dışişleri Bakanlarından veya bunların Strazburg'daki daimi diplomatik temsilcilerinden o...

Train system using magnetic levitation This article is about transportation. For the phenomenon, see Magnetic levitation. For other uses, see Maglev (disambiguation). The neutrality of this article is disputed. Relevant discussion may be found on the talk page. Please do not remove this message until conditions to do so are met. (May 2023) (Learn how and when to remove this message) Transrapid 09 at the Emsland test facility in Lower Saxony, Germany A full trip on the Shanghai Transrapid magl...

Iton Jacobsen komo pinahalipot nga ngaran hiton mga awtor in puyde mahanungod kanda: Hermann Johannes Heinrich Jacobsen Hans Jacobsen Ini nga pakli hin pansayod naglilista han mga artikulo o barasahon nga may pagkaparehas hin titulo. Kon an usa nga internal nga sumpay an nagdara ha imo nganhi, alayon pagbulig ha amon ha pag-upay han Wikipedya pinaagi hin pagliwat agod dumiretso han karadto-an nga artikulo an sakto nga sumpay.

An Puerto Caicedo amo in usa ka bungto ngan munisipalidad ha departamento han Putumayo ha nasod han Colombia. khlMga munisipalidad ha departamento han PutumayoColón • Mocoa • Orito • Puerto Asís • Puerto Caicedo • Puerto Guzmán • Puerto Leguízamo • San Francisco • San Miguel • Santiago • Sibundoy • Valle del Guamuez • VillagarzónBandera han Putumayo  Usa ka turók ini nga barasahon. Dako it imo maibubulig ha Wikipedia pinaagi han pagparabong hini.

Holy Sepulchre CemeteryHoly Sepulchre Cemetery, east division entranceDetailsEstablished1871LocationRochester, New YorkCountryUnited StatesTypeCatholic PublicSize332 acres (1.34 km2)Websitewww.holysepulchre.orgFind a GraveHoly Sepulchre Cemetery Holy Sepulchre Cemetery[1] is a Roman Catholic cemetery in Rochester, New York. Its original parcel was purchased in 1871 under Rochester’s first bishop, the Most Reverend Bernard J. McQuaid. The cemetery’s charter was granted by the ...

Paghimo ni bot Lsjbot. Trachys novus Siyentipikinhong Pagklasipikar Kaginharian: Animalia Ka-ulo: Arthropoda Kasipak-ulo: Hexapoda Kahutong: Insecta Kahanay: Coleoptera Kapunoang-banay: Buprestoidea Kabanay: Buprestidae Kahenera: Trachys Espesye: Trachys novus Siyentipikinhong Ngalan Trachys novusKerremans, 1894 Kaliwatan sa bakukangon ang Trachys novus.[1] Una ning gihulagway ni Charles Kerremans ni adtong 1894.[2] Ang Trachys novus sakop sa kahenera nga Trachys, ug kabanay n...

Tony Matelli Født1971[1][2][3]ChicagoBeskjeftigelseBilledhugger, video-installasjonskunstner NasjonalitetUSA[4]Tony Matelli på Commons Tony Matelli (født 1971 i Chicago) er en amerikansk kunstner som lager skulptur og oppstillinger (tablåer) som billedliggjør sider ved livet som ikke alltid er vakre eller gode. Arbeidene karakteriseres som hyperrealisme[5] Han bor og arbeider i New York (2013). Utdannelse ved: Alliance of Independent Colleges ...