Коефіцієнт локального відхилення

Коефіцієнт локального видхилення (КЛВ, англ. local outlier factor) — це алгоритм для виявлення аномалій. Він був запропонований Маркусом М. Бройнігом, Гансом-Пітером Крігелем[en], Раймондом Т. Нґом і Йоргом Сандером у 2000 році для пошуку аномальних точок даних шляхом вимірювання локального відхилення даної точки даних по відношенню до сусідніх точок[1].

КЛВ використовує деякі поняття з алгоритмів DBSCAN і OPTICS, наприклад поняття «відстань до ядра» і «відстань доступності», які використовуються для оцінки локальної щільності[2].

Основна ідея

Основна ідея КЛВ: порівняння локальної щільності точки з щільністю її сусідів. Точка А має набагато меншу щільність, ніж її сусіди.

Коефіцієнт локального відхилення базується на концепції локальної щільності, де локальність визначається k найближчими сусідами, відстань до яких використовується для оцінки щільності. Порівнюючи локальну щільність об'єкта з локальною щільністю його сусідів, можна ідентифікувати області з подібною щільністю та точки, які мають значно нижчу щільність, ніж їхні сусіди. Такі точки вважаються викидами.

Локальна щільність оцінюється за допомогою типової відстані, на якій можна «дотягнутися» до точки від її сусідів. Визначення «відстані досяжності», що використовується в КЛВ, є додатковим заходом для отримання більш стабільних результатів у кластерах. «Відстань досяжності», яку використовує КЛВ, має деякі нюанси, які часто виявляються спотвореними у вторинних джерелах, наприклад, у підручнику Етема Алпайдіна[3].

Формальне визначення

Нехай k-distance(A) визначається як відстань об'єкта A до k-го найближчого сусіда. Зауважте, що множина k найближчих сусідів включає всі об'єкти на цій відстані, яких у випадку «рівності» можуть бути більше, ніж k об'єктів. Позначимо множину k найближчих сусідів як Nk(A).

Ілюстрація відстані досяжності. Точки B і C мають однакову відстань досяжності (k=3), тоді як D не є k найближчим сусідом.

Ця відстань використовується для визначення того, що називається відстанню досяжності (reachability distance):

Тобто, відстань досяжності об'єкта A від B є справжньою відстанню двох об'єктів, і є, щонайменше, k-відстанню від B. Об'єкти, які належать до k найближчих сусідів B («ядро» B, див. кластерний аналіз DBSCAN), вважаються однаково віддаленими. Причиною цього є зменшення статистичних флуктуацій між усіма точками A поблизу B, де збільшення значення k збільшує ефект згладжування[1]. Зауважте, що це не відстань у математичному визначенні, оскільки вона не є симетричною. (Хоча завжди використовувати k-distance(A) є поширеною помилкою[4], це дає дещо інший метод, — спрощений-КЛВ[4]).

Локальна щільність досяжності об'єкта A визначається за допомогою

,

яка є оберненою до середньої відстані досяжності об'єкта А від його сусідів. Зауважте, що це не середня досяжність сусідів з A (яка за визначенням була б k-distance(A)), а відстань, на якій точка A може бути «досяжною» від своїх сусідів. У випадку дублювання точок, це значення може стати нескінченністю.

Потім локальна щільність досяжності порівнюється з щільністю сусідів, які використовують

це середня локальна щільність досяжності сусідів, поділена на власну локальну щільність досяжності об'єкта. Значення, що дорівнює приблизно 1 вказує на те, що об'єкт можна порівняти зі своїми сусідами (і, таким чином, не є викидом). Значення нижче 1 вказує на більш щільну область (що вказує на нормальну точку), тоді як значення, значно більші за 1, вказують на викиди.

LOF(k) ~ 1 означає: Така ж щільність, як у сусідів,

LOF(k) < 1 означає: Вища щільність, ніж у сусідів (нормально точка),

LOF(k) > 1 означає: Нижча щільність, ніж у сусідів (викид).

Переваги

Значення КЛВ, візуалізовані за допомогою ELKI[en]. Хоча верхній правий кластер має щільність, порівнянну з викидами поблизу нижнього лівого кластера, викиди знаходяться правильно.

Завдяки локальному підходу КЛВ може ідентифікувати викиди в наборі даних, які не були б викидами в іншій ділянці набору даних. Наприклад, точка на «малій» відстані до дуже щільного кластера є викидом, тоді як точка в розрідженому кластері може демонструвати подібні відстані до своїх сусідів.

Хоча геометрична інтуїція КЛВ застосовна лише до векторних просторів низької розмірності, алгоритм можна застосовувати в будь-якому контексті, де можна визначити функцію неподібності. Експериментально було показано, що він дуже добре працює у багатьох застосунках, часто перевершуючи конкурентів, наприклад, у виявленні вторгнень у мережу[5] та на оброблених даних еталонного тесту класифікації[6].

Сімейство методів КЛВ можна легко узагальнити, а потім застосувати до різних інших задач, таких як виявлення викидів у географічних даних, відеопотоках або мережах авторства[4].

Переваги

Отримані значення є частками, і їх важко інтерпретувати. Значення 1 або навіть менше вказує на явне нормальне значення, але немає чіткого правила, коли точка є викидом. В одному наборі даних значення 1,1 уже може бути викидом, в іншому наборі даних і параметризації (із сильними локальними коливаннями) значення 2 все ще може бути викидом. Ці відмінності також можуть виникати всередині набору даних через локальність методу. Існують розширення КЛВ, які намагаються покращити КЛВ у таких аспектах:

  • Feature Bagging for Outlier Detection[7] запускає КЛВ на кількох проекціях і поєднує результати для покращення якості виявлення для багатовимірних даних. Це перший підхід ансамблевого навчання до виявлення викидів, інші варіанти див[8].
  • Local Outlier Probability (LoOP)[9] — це метод похідний від КЛВ, але з використанням недорогої локальної статистики, щоб бути менш чутливим до вибору параметра k . Також, отримані значення масштабуються до діапазону значень [0:1] .
  • Interpreting and Unifying Outlier Scores[10] пропонує нормалізацію показників КЛВ до інтервалу [0:1] за допомогою статистичного масштабування для підвищення зручності використання, і цей підхід можна розглядати, як вдосконалену версію ідей LoOP.
  • У статті On Evaluation of Outlier Rankings and Outlier Scores[11] пропонуються методи вимірювання подібності та різноманітності методів для побудови вдосконалених ансамблів виявлення викидів з використанням варіантів КЛВ та інших алгоритмів і вдосконалення підходу Feature Bagging, описаного вище.
  • У статті Local outlier detection reconsidered: a generalized view on locality with applications to spatial, video, and network outlier detection[4] обговорюється загальна схема в різних методах виявлення локальних викидів (включаючи, наприклад, КЛВ, спрощену версію КЛВ і LoOP), що дозволяє абстрагуватися та виокремити загальну структуру. Ця структура потім застосовується, наприклад, для виявлення викидів у географічних даних, відеопотоках і мережах авторства.

Примітки

  1. а б Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. с. 93—104. doi:10.1145/335191.335388. ISBN 1-58113-217-4.
  2. Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. R. (1999). OPTICS-OF: Identifying Local Outliers. Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Т. 1704. с. 262. doi:10.1007/978-3-540-48247-5_28. ISBN 978-3-540-66490-1.
  3. Alpaydin, Ethem (2020). Introduction to machine learning (вид. Fourth). Cambridge, Massachusetts. ISBN 978-0-262-04379-3. OCLC 1108782604.
  4. а б в г Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection. Data Mining and Knowledge Discovery. 28: 190—237. doi:10.1007/s10618-012-0300-z.
  5. Lazarevic, A.; Ozgur, A.; Ertoz, L.; Srivastava, J.; Kumar, V. (2003). A comparative study of anomaly detection schemes in network intrusion detection (PDF). Proc. 3rd SIAM International Conference on Data Mining: 25—36. Архів оригіналу (PDF) за 17 липня 2013. Процитовано 14 травня 2010.
  6. Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study. Data Mining and Knowledge Discovery. 30 (4): 891—927. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810.
  7. Lazarevic, A.; Kumar, V. (2005). Feature bagging for outlier detection. Proc. 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining: 157—166. doi:10.1145/1081870.1081891. ISBN 159593135X.
  8. Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). Ensembles for unsupervised outlier detection. ACM SIGKDD Explorations Newsletter. 15: 11—22. doi:10.1145/2594473.2594476.
  9. Kriegel, H.-P.; Kröger, P.; Schubert, E.; Zimek, A. (2009). LoOP: Local Outlier Probabilities (PDF). Proceedings of the 18th ACM Conference on Information and Knowledge Management. CIKM '09. с. 1649—1652. doi:10.1145/1645953.1646195. ISBN 978-1-60558-512-3.
  10. Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2011). Interpreting and Unifying Outlier Scores. Proceedings of the 2011 SIAM International Conference on Data Mining. с. 13—24. CiteSeerX 10.1.1.232.2719. doi:10.1137/1.9781611972818.2. ISBN 978-0-89871-992-5.
  11. Schubert, E.; Wojdanowski, R.; Zimek, A.; Kriegel, H. P. (2012). On Evaluation of Outlier Rankings and Outlier Scores. Proceedings of the 2012 SIAM International Conference on Data Mining. с. 1047—1058. CiteSeerX 10.1.1.300.7205. doi:10.1137/1.9781611972825.90. ISBN 978-1-61197-232-0.

Read other articles:

Acronia pretiosa Klasifikasi ilmiah Kerajaan: Animalia Filum: Arthropoda Kelas: Insecta Ordo: Coleoptera Famili: Cerambycidae Subfamili: Lamiinae Genus: Acronia Spesies: Acronia pretiosa Acronia pretiosa adalah spesies kumbang tanduk panjang yang tergolong familia Cerambycidae. Spesies ini juga merupakan bagian dari genus Acronia, ordo Coleoptera, kelas Insecta, filum Arthropoda, dan kingdom Animalia. Larva kumbang ini biasanya mengebor ke dalam kayu dan dapat menyebabkan kerusakan pada bata...

 

French military slogan On ne passe pas!. The 1918 French propaganda poster by Maurice Neumont [fr] that reads: Twice I have stood and vanquished on the Marne. Brother civilian, the underhand offensive of 'white peace' will attack you in turn; and like me you must stand firm and vanquish. Be strong and shrewd. Beware of Boche hypocrisy.[1] They shall not pass (French: Ils ne passeront pas; Romanian: Pe aici nu se trece; Spanish: No pasarán) is a slogan, most notably used ...

 

دوري الدرجة الأولى الليتواني 2010 تفاصيل الموسم دوري الدرجة الأولى الليتواني  النسخة 21  البلد ليتوانيا  التاريخ بداية:20 مارس 2010  نهاية:14 نوفمبر 2010  المنظم اتحاد ليتوانيا لكرة القدم  البطل نادي إكراناس  مباريات ملعوبة 135   عدد المشاركين 11   دوري الدرجة ا�...

HoeryongPyongyang Lokasi kamp Hoeryong di Korea Utara Kyo-hwa-so Hoeryong adalah kamp pendidikan ulang yang terletak di Hoeryong, Hamgyong Utara, Korea Utara.[1] Kamp ini tidak sama dengan kamp penjara politik Haengyong (Kwan-li-so Nr. 22) yang terletak 10 km (6,2 mi) di timur laut Hoeryong dan kadang disebut kamp Hoeryong. Lihat pula Hak asasi manusia di Korea Utara Kamp konsentrasi Kaechon Referensi ^ The Hidden Gulag – Exposing Crimes against Humanity in North Korea's V...

 

2008–09 Biathlon World CupDiscipline Men WomenOverall Ole Einar Bjørndalen Helena JonssonNations Cup Norway GermanyIndividual Michael Greis Magdalena NeunerSprint Ole Einar Bjørndalen Helena JonssonPursuit Ole Einar Bjørndalen Kati WilhelmMass start Dominik Landertinger Helena JonssonRelay Austria GermanyCompetition ←2007–082009–10→ 2008–09 Biathlon World Cup Men Overall Individual Sprint Pursuit Mass start Relay Nation Women Overall Individual Sprint Pursuit Mass start Relay N...

 

  لمعانٍ أخرى، طالع سيكي (توضيح). سيكي   تقسيم إداري البلد اليونان  [1] خصائص جغرافية إحداثيات 40°02′20″N 23°56′27″E / 40.03888889°N 23.94083333°E / 40.03888889; 23.94083333   الارتفاع 40 متر  السكان التعداد السكاني 2263 (resident population of Greece) (2001)2375 (resident population of Greece) (1991)1865 (resident popul...

Biografi ini memerlukan lebih banyak catatan kaki untuk pemastian. Bantulah untuk menambahkan referensi atau sumber tepercaya. Materi kontroversial atau trivial yang sumbernya tidak memadai atau tidak bisa dipercaya harus segera dihapus, khususnya jika berpotensi memfitnah.Cari sumber: Hamengkubuwana X – berita · surat kabar · buku · cendekiawan · JSTOR (Pelajari cara dan kapan saatnya untuk menghapus pesan templat ini) Ingkang Sinuwun Sri SultanHameng...

 

40°45′52.81″N 73°59′11.61″W / 40.7646694°N 73.9865583°W / 40.7646694; -73.9865583 Building in New York City, United StatesSt. Benedict the Moor ChurchSt. Benedict the Moor Church at 342 West 53rd Street (to right) and the rectory at 338–342 West 53rd Street (to left), which was built in 1965 to the designs of architect Joseph MitchellGeneral informationArchitectural styleItalianate (church)Address342 W 53rd StreetTown or cityHell's Kitchen / Clinton, Manh...

 

Model beralih ke halaman ini. Untuk kegunaan lain, lihat Model (disambiguasi). Para peragawati busana di atas pentas peraga[1] (catwalk). Peragawan atau peragawati (Inggris: model) adalah seseorang yang dipekerjakan untuk tujuan menampilkan dan mempromosikan pakaian mode atau produk lainnya dan untuk tujuan iklan atau promosi atau yang berpose untuk karya seni. Seorang peragawati pada sesi foto di suatu studio Catatan kaki ^ Kateglo Diarsipkan 2012-03-03 di Wayback Machine.. Diamb...

South Korean actor and singer In this Korean name, the family name is Ji. Ji Chang-wookJi in September 2019Born (1987-07-05) 5 July 1987 (age 36)Anyang, Gyeonggi Province, South KoreaAlma materDankook University (Department of Performing Arts)[1]OccupationsActorsingerYears active2006–presentAgentSpring CompanyKorean nameHangul지창욱Hanja池昌旭Revised RomanizationJi Chang-ukMcCune–ReischauerChi Ch'anguk Websitespringcompany.co.kr Ji Chang-wook (Korean: ...

 

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)出典検索?: コルク – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2017年4月) コルクを打ち抜いて作った瓶の栓 コルク(木栓、�...

 

Célestin HippeauBiographieNaissance 11 mai 1803NiortDécès 31 mai 1883 (à 80 ans)16e arrondissement de ParisSépulture Cimetière de PassyNationalité françaiseActivités Pédagogue, philologue, écrivain, professeur d'universitéEnfant Edmond Hippeau (d)Autres informationsDistinctions Prix Marcelin-Guérin (1878)Chevalier de la Légion d'honneur‎modifier - modifier le code - modifier Wikidata Célestin Hippeau, né le 11 mai 1803 à Niort et mort le 31 mai 1883 à Paris, est ...

Voce principale: Offenbacher Fußball-Club Kickers 1901. Offenbacher Fußball-Club Kickers 1901Stagione 1994-1995Sport calcio Squadra Kickers Offenbach Allenatore Wilfried Kohls All. in seconda Stephan Groß Regionalliga sud15° posto Coppa di GermaniaSecondo turno 1993-1994 1995-1996 Si invita a seguire il modello di voce Questa voce raccoglie le informazioni riguardanti l'Offenbacher Fußball-Club Kickers 1901 nelle competizioni ufficiali della stagione 1994-1995. Indice 1 Stagione 2 ...

 

此條目可参照英語維基百科相應條目来扩充。 (2021年5月6日)若您熟悉来源语言和主题,请协助参考外语维基百科扩充条目。请勿直接提交机械翻译,也不要翻译不可靠、低品质内容。依版权协议,译文需在编辑摘要注明来源,或于讨论页顶部标记{{Translated page}}标签。 约翰斯顿环礁Kalama Atoll 美國本土外小島嶼 Johnston Atoll 旗幟颂歌:《星條旗》The Star-Spangled Banner約翰斯頓環礁�...

 

拉尔·巴哈杜尔·夏斯特里第二任印度总理任期1964年6月9日—1966年1月11日总统薩瓦帕利·拉達克里希南前任古爾扎里拉爾·南達继任古爾扎里拉爾·南達印度外交部長任期1964年6月9日—1964年7月18日总理自己前任古爾扎里拉爾·南達继任斯瓦倫·辛格(英语:Swaran Singh)印度內政部長任期1961年4月4日—1963年8月29日总理賈瓦哈拉爾·尼赫魯前任戈文德·巴拉布·潘特(英语:Govind Balla...

District in Razavi Khorasan province, Iran District in Razavi Khorasan, IranCentral District (Sarakhs County) Persian: بخش مرکزی شهرستان سرخسDistrictCentral District (Sarakhs County)Coordinates: 36°19′30″N 60°47′11″E / 36.32500°N 60.78639°E / 36.32500; 60.78639[1]CountryIranProvinceRazavi KhorasanCountySarakhsCapitalSarakhsPopulation (2016)[2] • Total80,710Time zoneUTC+3:30 (IRST) The Central Dis...

 

1965 Stella Pocketby folding bicycle Stella was a French bicycle manufacturer founded in 1909.[1][2] The company sponsored Louison Bobet, a French professional cyclist. Bobet won the Tour de France in 1953 and 1954 while riding Stella bicycles.[3][4][5] Trivia Stella became the codename for the Atari 2600 because Jay Miner (the video chip designer) owned a Stella bicycle. [6] [7] References ^ Stella bicycles. ^ Stella SX-73 Model B. ^ gi...

 

  لمعانٍ أخرى، طالع وينشستر (توضيح). وينشستر     الإحداثيات 39°19′18″N 95°16′05″W / 39.3217°N 95.2681°W / 39.3217; -95.2681   [1] تقسيم إداري  البلد الولايات المتحدة[2]  التقسيم الأعلى مقاطعة جيفرسون  خصائص جغرافية  المساحة 0.927715 كيلومتر مربع (1 أبريل 2010) ...

Risotto alla Milanese Masakan Lombardia (cucina lombarda) adalah masakan yang berasal dari regione Lombardia di Italia Utara.[1] Walau dikenal sebagai pusat industri dan perdagangan, kawasan ini juga dikenal menghasilkan produk pertanian yang paling besar kedua di Italia. Produk-produk pangan yang dihasilkan di Lombardia antara lain beras, pasta, dan produk-produk susu. Selain itu, daerah ini juga menghasilkan berbagai produk peternakan seperti domba dan babi. Masakan khas Ossobuco Ca...

 

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (أغسطس 2019) كأس الكؤوس الأوروبية 1998–99 تفاصيل الموسم كأس الكؤوس الأوروبية  النسخة 39  التاريخ بداية:13 أغسطس 1998  ...