Détection d'anomalies

Dans l'exploration de données, la détection d'anomalies (en anglais, anomaly detection ou outlier detection[1]) est l'identification d'éléments, d'événements ou d'observations rares qui soulèvent des suspicions en différant de manière significative de la majorité des autres données[1].

Généralement, les anomalies indiquent un problème tel qu'une fraude bancaire, un défaut structurel, un problème médical ou une erreur dans un texte. Les anomalies sont également appelées des valeurs aberrantes, du bruit, des écarts ou des exceptions[2].

Dans le contexte de détection d'intrusions sur un réseau informatique, les objets intéressants ne sont souvent pas des objets rares, mais des pics d'activités inattendus. Ce modèle n'adhère pas à la définition d'une anomalie en tant qu'objet rare et de nombreuses méthodes de détection d'anomalies (en particulier, des méthodes non supervisées) échouent à identifier ces anomalies, à moins que les anomalies aient été agrégées de manière appropriée. Dans de telles situations, un algorithme d'analyse par partitionnement de données peut être capable de détecter ces problèmes[3].

Il existe trois grandes catégories de techniques de détection d'anomalies[4] :

  • les techniques de détection d'anomalies non supervisées détectent les anomalies dans un ensemble de données non étiquetées en supposant que la majorité des instances de l'ensemble de données sont normales et en recherchant les instances qui ne correspondent pas au reste des données ;
  • les techniques de détection d'anomalies supervisées nécessitent un ensemble de données où les données sont étiquetées normales ou anormales et impliquent l'entrainement d'un classificateur (la principale différence par rapport à de nombreux autres problèmes de classification statistique réside dans la nature déséquilibrée de la détection des valeurs aberrantes) ;
  • les techniques de détection d'anomalies semi-supervisées construisent un modèle représentant le comportement normal d'un ensemble de données normales, puis testent la probabilité qu'une instance de test soit compatible avec le modèle.

Applications

La détection d'anomalies est applicable dans divers domaines, tels que la détection d'intrusions, la détection de fraudes, la détection de défauts, la surveillance de l'état du système, la détection d'événements dans des réseaux de capteurs et la détection de perturbations d'un écosystème.

La détection d'anomalies est aussi souvent utilisée dans le prétraitement de données pour supprimer des données anormales d'un ensemble de données. Dans l'apprentissage supervisé, la suppression des données anormales de l'ensemble de données entraîne souvent une augmentation statistiquement significative de la précision de l'apprentissage[5],[6].

Techniques populaires

Plusieurs techniques de détection d'anomalies ont été proposées dans la littérature[7]. Certaines des techniques populaires sont :

Les performances des différentes méthodes dépendent beaucoup du jeu de données et des paramètres, et les méthodes présentent peu d'avantages systématiques par rapport aux autres lorsqu'elles sont comparées entre plusieurs jeux de données et de paramètres[28],[29].

Application à la sécurité des données

La détection d'anomalies a été proposée par Dorothy Denning (en) en 1986 pour les systèmes de détection d'intrusion[30]. La détection d'anomalies pour les systèmes de détection d'intrusion est normalement réalisée avec des seuils et des statistiques, mais peut également être réalisée avec le soft computing et l'apprentissage par induction (en anglais inductive learning)[31].

Logiciel

ELKI (en) est un logiciel Java d'exploration de données open source qui contient plusieurs algorithmes de détection d'anomalies.

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Anomaly detection » (voir la liste des auteurs).
  1. a et b Arthur Zimek et Erich Schubert, Encyclopedia of Database Systems, Springer New York, , 1–5 p. (ISBN 978-1-4899-7993-3, DOI 10.1007/978-1-4899-7993-3_80719-1), « Outlier Detection »
  2. V. J. Hodge et J. Austin, « A Survey of Outlier Detection Methodologies », Artificial Intelligence Review, vol. 22, no 2,‎ , p. 85–126 (DOI 10.1007/s10462-004-4304-y, CiteSeerx 10.1.1.318.4023, lire en ligne)
  3. Paul Dokas, Levent Ertoz, Vipin Kumar, Aleksandar Lazarevic, Jaideep Srivastava et Pang-Ning Tan, « Data mining for network intrusion detection », Proceedings NSF Workshop on Next Generation Data Mining,‎ (lire en ligne)
  4. V. Chandola, A. Banerjee et V. Kumar, « Anomaly detection: A survey », ACM Computing Surveys, vol. 41, no 3,‎ , p. 1–58 (DOI 10.1145/1541880.1541882)
  5. Ivan Tomek, « An Experiment with the Edited Nearest-Neighbor Rule », IEEE Transactions on Systems, Man, and Cybernetics, vol. 6, no 6,‎ , p. 448–452 (DOI 10.1109/TSMC.1976.4309523)
  6. M. R. Smith et T. Martinez, The 2011 International Joint Conference on Neural Networks, , 2690 p. (ISBN 978-1-4244-9635-8, DOI 10.1109/IJCNN.2011.6033571, lire en ligne), « Improving classification accuracy by identifying and removing instances that should be misclassified »
  7. Arthur Zimek et Peter Filzmoser, « There and back again: Outlier detection between statistical reasoning and data mining algorithms », Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, vol. 8, no 6,‎ , e1280 (ISSN 1942-4787, DOI 10.1002/widm.1280)
  8. E. M. Knorr, R. T. Ng et V. Tucakov, « Distance-based outliers: Algorithms and applications », The VLDB Journal the International Journal on Very Large Data Bases, vol. 8, nos 3–4,‎ , p. 237–253 (DOI 10.1007/s007780050006, CiteSeerx 10.1.1.43.1842)
  9. S. Ramaswamy, R. Rastogi et K. Shim « Efficient algorithms for mining outliers from large data sets » () (DOI 10.1145/342009.335437)
    Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00
  10. F. Angiulli et C. Pizzuti « Fast Outlier Detection in High Dimensional Spaces » () (DOI 10.1007/3-540-45681-3_2)
    Principles of Data Mining and Knowledge Discovery
  11. M. M. Breunig, H.-P. Kriegel, R. T. Ng et J. Sander « LOF: Identifying Density-based Local Outliers » () (DOI 10.1145/335191.335388, lire en ligne)
    « (ibid.) », Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data,‎ , p. 93–104
  12. (en) Fei Tony Liu, Kai Ming Ting et Zhi-Hua Zhou, Isolation Forest (2008 Eighth IEEE International Conference on Data Mining), , 413–422 p. (ISBN 978-0-7695-3502-9, DOI 10.1109/ICDM.2008.17, lire en ligne)
  13. E. Schubert, A. Zimek et H. -P. Kriegel, « Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection », Data Mining and Knowledge Discovery, vol. 28,‎ , p. 190–237 (DOI 10.1007/s10618-012-0300-z)
  14. H. P. Kriegel, P. Kröger, E. Schubert et A. Zimek « Outlier Detection in Axis-Parallel Subspaces of High Dimensional Data » () (DOI 10.1007/978-3-642-01307-2_86)
    Advances in Knowledge Discovery and Data Mining
  15. H. P. Kriegel, P. Kroger, E. Schubert et A. Zimek « Outlier Detection in Arbitrarily Oriented Subspaces » () (DOI 10.1109/ICDM.2012.21)
    2012 IEEE 12th International Conference on Data Mining
  16. H. Fanaee-T et J. Gama, « Tensor-based anomaly detection: An interdisciplinary survey », Knowledge-Based Systems, vol. 98,‎ , p. 130–147 (DOI 10.1016/j.knosys.2016.01.027)
  17. A. Zimek, E. Schubert et H.-P. Kriegel, « A survey on unsupervised outlier detection in high-dimensional numerical data », Statistical Analysis and Data Mining, vol. 5, no 5,‎ , p. 363–387 (DOI 10.1002/sam.11161)
  18. B. Schölkopf, J. C. Platt, J. Shawe-Taylor, A. J. Smola et R. C. Williamson, « Estimating the Support of a High-Dimensional Distribution », Neural Computation, vol. 13, no 7,‎ , p. 1443–71 (PMID 11440593, DOI 10.1162/089976601750264965, CiteSeerx 10.1.1.4.4106)
  19. a b et c Simon Hawkins, Hongxing He, Graham Williams et Rohan Baxter, Data Warehousing and Knowledge Discovery, vol. 2454, coll. « Lecture Notes in Computer Science », , 337 p. (ISBN 978-3-540-44123-6, DOI 10.1007/3-540-46145-0_17, lire en ligne), « Outlier Detection Using Replicator Neural Networks »
  20. Z. He, X. Xu et S. Deng, « Discovering cluster-based local outliers », Pattern Recognition Letters, vol. 24, nos 9–10,‎ , p. 1641–1650 (DOI 10.1016/S0167-8655(03)00003-5, CiteSeerx 10.1.1.20.4242)
  21. R. J. G. B. Campello, D. Moulavi, A. Zimek et J. Sander, « Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection », ACM Transactions on Knowledge Discovery from Data, vol. 10, no 1,‎ , p. 5:1–51 (DOI 10.1145/2733381)
  22. A. Lazarevic et V. Kumar, Feature bagging for outlier detection (Proc. 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining), , 157–166 p. (ISBN 978-1-59593-135-1, DOI 10.1145/1081870.1081891)
  23. H. V. Nguyen, H. H. Ang et V. Gopalkrishnan « Mining Outliers with Ensemble of Heterogeneous Detectors on Random Subspaces » () (DOI 10.1007/978-3-642-12026-8_29)
    Database Systems for Advanced Applications
  24. H. P. Kriegel, P. Kröger, E. Schubert et A. Zimek « Interpreting and Unifying Outlier Scores » () (DOI 10.1137/1.9781611972818.2, CiteSeerx 10.1.1.232.2719)
    Proceedings of the 2011 SIAM International Conference on Data Mining
  25. E. Schubert, R. Wojdanowski, A. Zimek et H. P. Kriegel « On Evaluation of Outlier Rankings and Outlier Scores » () (DOI 10.1137/1.9781611972825.90)
    Proceedings of the 2012 SIAM International Conference on Data Mining
  26. A. Zimek, R. J. G. B. Campello et J. R. Sander, « Ensembles for unsupervised outlier detection », ACM SIGKDD Explorations Newsletter, vol. 15,‎ , p. 11–22 (DOI 10.1145/2594473.2594476)
  27. A. Zimek, R. J. G. B. Campello et J. R. Sander « Data perturbation for outlier detection ensembles » () (DOI 10.1145/2618243.2618257)
    Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14
  28. Guilherme O. Campos, Arthur Zimek, Jörg Sander, Ricardo J. G. B. Campello, Barbora Micenková, Erich Schubert, Ira Assent et Michael E. Houle, « On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study », Data Mining and Knowledge Discovery, vol. 30, no 4,‎ , p. 891 (ISSN 1384-5810, DOI 10.1007/s10618-015-0444-8)
  29. Anomaly detection benchmark data repository of the Ludwig-Maximilians-Universität München; Mirror at University of São Paulo.
  30. D. E. Denning, « An Intrusion-Detection Model », IEEE Transactions on Software Engineering, vol. SE-13, no 2,‎ , p. 222–232 (DOI 10.1109/TSE.1987.232894, CiteSeerx 10.1.1.102.5127, lire en ligne)
  31. H. S. Teng, K. Chen et S. C. Lu, Adaptive real-time anomaly detection using inductively generated sequential patterns (Proceedings of the IEEE Computer Society Symposium on Research in Security and Privacy), , 401 p. (ISBN 978-0-8186-2060-7, DOI 10.1109/RISP.1990.63857, lire en ligne)

Read other articles:

Cities not belonging to any particular county This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Independent city United States – news · newspapers · books · scholar · JSTOR (April 2013) (Learn how and when to remove this template message) This article is part of a series onPolitical divisions ofthe United...

 

Eizo Sakamoto (坂本 英三code: ja is deprecated , Sakamoto Eizō) (lahir 23 Februari 1964) adalah pemusik heavy metal sekaligus penulis lirik dan pencipta lagu asal Jepang. Pernah kuliah di Fakultas Filsafat Universitas Nihon namun tidak selesai. Biografi Karier di bidang musik dimulainya saat berusia 21 tahun dengan membentuk band Anthem yang beraliran heavy metal. Setelah Anthem bubar pada bulan 1987, Sakamoto sempat berganti-ganti pekerjaan. Pada tahun 1996, ia bergabung sebagai vokalis...

 

American politician This article includes a list of general references, but it lacks sufficient corresponding inline citations. Please help to improve this article by introducing more precise citations. (March 2013) (Learn how and when to remove this template message) John C. McKenzieMember of the U.S. House of Representativesfrom Illinois's 13th districtIn officeMarch 4, 1911 – March 4, 1925Preceded byFrank O. LowdenSucceeded byWilliam R. Johnson Personal detailsBorn(1...

Railway station in Greater Manchester, England Ashton-under-LyneThe station's island platform, looking towards Manchester.General informationLocationAshton-under-Lyne, TamesideEnglandCoordinates53°29′29″N 2°05′39″W / 53.4913°N 2.0943°W / 53.4913; -2.0943Grid referenceSJ938993Managed byNorthern TrainsTransit authorityGreater ManchesterPlatforms2Other informationStation codeAHNClassificationDfT category EHistoryOriginal companyAshton, Stalybridge & Liverp...

 

SirJames DonaldsonFRSEPrincipal of the University of St AndrewsIn office1886–1915Preceded byReverend John TullochSucceeded bySir John Herkless Personal detailsBorn(1831-04-26)26 April 1831Aberdeen, Aberdeenshire, ScotlandDied9 March 1915(1915-03-09) (aged 83)EducationAberdeen Grammar SchoolAlma materMarischal College, AberdeenBerlin UniversityProfessionClassical scholar, theological writer The grave of Chancellor James Donaldson and his family, St Andrews Cathedral churchyard Sir Jame...

 

Mario Perazzolo Nazionalità  Italia Altezza 169 cm Calcio Ruolo Mediano Termine carriera 1950 - giocatore1973 - allenatore CarrieraGiovanili  PadovaSquadre di club1 1928-1933 Padova125 (33)1933-1936 Fiorentina85 (7)1936-1941 Genova 1893165 (14)1942-1943 Brescia31 (2)1943-1944 Padova11 (2)1945-1948 Brescia89 (2)1948-1950 Siracusa1 (0)Nazionale 1936-1939 Italia8 (0)Carriera da allenatore 1946 Brescia1950-1951 Siracusa1951-1953 Triest...

Questa voce o sezione sull'argomento circuiti motoristici non cita le fonti necessarie o quelle presenti sono insufficienti. Puoi migliorare questa voce aggiungendo citazioni da fonti attendibili secondo le linee guida sull'uso delle fonti. AVUSTracciato di AVUSLocalizzazioneStato Germania LocalitàBerlino CaratteristicheLunghezza8 300 m Curve4 Circuito utilizzato fino al 1998 Inaugurazione1921 CategorieFormula 1 Super Tourenwagen Cup Formula 1Tempo record2'045 Stabilito daTon...

 

South Korean television series For the original TV series of the same title, see Mother (Japanese TV series). MotherPromotional posterAlso known asCall Me MotherHangul마더 GenreDramaSuspenseBased onMotherby Yuji SakamotoDeveloped byStudio DragonWritten byJeong Seo-kyeongDirected byKim Cheol-kyuStarringLee Bo-youngHeo YoolLee Hye-youngNam Ki-aeKo Sung-heeMusic byJeong Se-rin (Movie Closer)Country of originSouth KoreaOriginal languageKoreanNo. of episodes16ProductionExecutive producersKim Jin...

 

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (يوليو 2023) هذه قائمة من الجماعات (الجماعات الحضرية أو الريفية)، والبلديات في المغرب، استنادا إلى تعداد عام 2004.[1] في عام 2009، أعتمد تقسيم إداري جديد للمغرب، حيث تم إنش...

Anarchism by country Part of a series onAnarchism History Outline Schools of thought Feminist Green Primitivist Social ecology Total liberation Individualist Egoist Free-market Naturist Philosophical Mutualism Postcolonial African Black Queer Religious Christian Jewish Social Collectivist Parecon Communist Magonism Without adjectives Methodology Agorism Illegalism Insurrectionary Communization Expropriative Pacifist Platformism Especifismo Relationship Syndicalist Synthesis Theory Practice An...

 

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada November 2022. Anna KuzmenkoKuzmenko pada tahun 2019Informasi PribadiNama lengkapAnna Alexandrovna KuzmenkoMewakili negara PrancisBekas negara yang diwakili RusiaLahir27 Februari 2004 (umur 20)Moscow, RusiaDaerah asalParis, PrancisTinggi161 m (52...

 

Romanian writer and historian This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This biography of a living person needs additional citations for verification. Please help by adding reliable sources. Contentious material about living persons that is unsourced or poorly sourced must be removed immediately from the article and its talk page, especially if potentially libelous.Find sources:...

First electronic music visualizer Atari Video MusicThe Atari Video MusicDeveloperRobert J. BrownManufacturerAtari, Inc.Typemusic visualizerRelease date1977; 47 years ago (1977)Introductory price$169.95; equivalent to $855 in 2023 Video output of Atari Video Music, recorded in 2021 The Atari Video Music (Model C240) is the earliest commercial electronic music visualizer released. It was manufactured by Atari, Inc., and released in 1977[1][2] for $169.95.&#...

 

كرين برينتون معلومات شخصية الميلاد 2 فبراير 1898 [1][2][3]  وينستد  الوفاة 7 سبتمبر 1968 (70 سنة)   ماساتشوستس  مواطنة الولايات المتحدة  عضو في الأكاديمية الأمريكية للفنون والعلوم،  والجمعية التاريخية الأمريكية،  والأكاديمية الأمريكية للفنون والآداب&#...

 

مفوضية الرقابة النووية (باليابانية: 原子力規制委員会)‏  مفوضية الرقابة النووية   تفاصيل الوكالة الحكومية البلد اليابان  تأسست 19 سبتمبر 2012  المركز ميناتو، طوكيو  وكالة السلامة النووية والصناعية اليابانية    الإدارة موقع الويب الموقع الرسمي،  والموقع الرس�...

Women's freestyle 63 kg at the 2007 World ChampionshipsVenueHeydar Aliyev Sports and Concert ComplexDates23 September 2007Competitors36 from 36 nationsMedalists  Kaori Icho   Japan Yelena Shalygina   Kazakhstan Sara McMann   United States Monika Rogien   Poland← 20062008 → 2007 World Wrestling ChampionshipsFreestyleGreco-RomanWomen55 kg55 kg48 kg60 kg60 kg51 kg66 kg66 kg55 kg74 kg74 kg59 kg8...

 

Gazzetta di ModenaStato Italia Linguaitaliano Periodicitàquotidiano Generestampa locale FormatoBerlinese Fondazione1859 SedeVia Emilia Est 985 - 41122 Modena EditoreGruppo SAE Tiratura11 027 (giugno 2018) Diffusione cartacea6 680[1] (2019) DirettoreCristiano Meoni[2] Sito webgazzettadimodena.gelocal.it/   Modifica dati su Wikidata · Manuale La Gazzetta di Modena, fondata nel 1859, è il principale quotidiano di Modena e provincia. Indice 1 Storia 1.1...

 

فتق الحجاب الحاجز فتق الحجاب الحاجز معلومات عامة الاختصاص طب الجهاز الهضمي  تعديل مصدري - تعديل   فتق الحجاب الحاجز هو عيب خلقي، بمعنى أنه يحدث أثناء تكون الحجاب الحاجز، ولذلك فهو يتواجد في الأطفال.[1][2][3] في هذا النوع من الفتق (التبارز) لا يتكون الحجاب الحا�...

Western music created during the Middle Ages Clockwise, from top left: Musicians playing the Spanish vihuela in the Cantigas de Santa Maria, 13th century Troubadours, 14th century Excerpt from the Laudario Magliabechiano, an Italian manuscript Part of a series onMedieval music Overview Composers  / Instruments / Theory (Theorists) Movements and schools Saint Gall Saint Martial Goliard Ars antiqua Notre-Dame school Troubadour Trouvère Minnesang Ars nova Trecento Ars subtilio...

 

كهف بلومبوسمعلومات عامةالبلد  جنوب إفريقيا الإحداثيات 34°24′52″S 21°13′21″E / 34.4144°S 21.2225°E / -34.4144; 21.2225 تعديل - تعديل مصدري - تعديل ويكي بيانات كهف بلومبوس هو موقع أثري يقع على بعد حوالى 300 كلم شرق كيب تاون على الساحل الجنوبي بجنوب أفريقيا. ويحتوي الكهف على أدوات من �...