Deteksi anomaliDalam analisis data, deteksi anomali (juga disebut deteksi outlier dan terkadang deteksi kebaruan) secara umum dipahami sebagai identifikasi item, peristiwa, atau observasi langka yang menyimpang secara signifikan dari mayoritas data dan tidak sesuai dengan gagasan perilaku normal yang terdefinisi dengan baik.[1] Contoh-contoh seperti itu mungkin menimbulkan kecurigaan bahwa hal tersebut dihasilkan oleh mekanisme yang berbeda,[2] atau tampak tidak konsisten dengan sisa kumpulan data tersebut.[3] Deteksi anomali dapat diterapkan di banyak domain, termasuk keamanan siber, kedokteran, visi mesin, statistika, ilmu saraf, penegakan hukum, dan penipuan keuangan, dan masih banyak lagi. Anomali awalnya dicari untuk mendeteksi penolakan atau penghilangan yang jelas dari data guna membantu analisis statistik, misalnya untuk menghitung rata-rata atau deviasi standar. Anomali juga dihilangkan untuk prediksi yang lebih baik dari model seperti regresi linier, dan baru-baru ini, penghapusannya membantu kinerja algoritma pembelajaran mesin. Namun, dalam banyak aplikasi, anomali itu sendiri menarik dan merupakan observasi yang paling diinginkan di seluruh set data, yang perlu diidentifikasi dan dipisahkan dari noise atau outlier yang tidak relevan. Terdapat tiga kategori luas teknik deteksi anomali.[1] Teknik deteksi anomali tersupervisi memerlukan kumpulan data yang telah diberi label "normal" dan "abnormal" dan melibatkan pelatihan pengklasifikasi. Namun, pendekatan ini jarang digunakan dalam deteksi anomali karena data berlabel umumnya tidak tersedia dan sifat kelas yang tidak seimbang. Teknik deteksi anomali semi-supervisi mengasumsikan bahwa sebagian data diberi label. Ini dapat berupa kombinasi data normal atau anomali, tetapi lebih sering, teknik ini membangun model yang merepresentasikan perilaku normal dari kumpulan data pelatihan normal yang diberikan, lalu menguji kemungkinan instans uji yang akan dihasilkan oleh model tersebut. Teknik deteksi anomali tak tersupervisi mengasumsikan data tidak berlabel dan sejauh ini merupakan yang paling umum digunakan karena penerapannya yang lebih luas dan relevan. Lihat pulaReferensi
Pranala luar |