Em mineração de dados, a detecção de anomalias (também detecção de outliers [1] ) é a identificação de itens, eventos ou observações raros que levantam suspeitas por serem significativamente diferentes da maioria dos dados.[1] Normalmente, os itens anômalos se referem a algum tipo de problema, como fraude bancária, defeito estrutural, problemas médicos ou erros em um texto. Anomalias são também referidas como outliers, ruído, desvios e exceções.[2]
Em particular, no contexto de detecção de intrusos em uma rede, os objetos de interesse geralmente não são os objetos raros, mas surtos inesperados de atividade. Esse padrão não atende à definição estatística comum de um outlier como um objeto raro, e muitos métodos de detecção de outliers (em particular métodos não supervisionados) falharão nesses dados, a menos que tenham sido tratados adequadamente. Em vez disso, um algoritmo de análise de cluster pode ser capaz de detectar os micro clusters formados por esses padrões.[3]
Existem três categorias amplas de técnicas de detecção de anomalias.[4] As técnicas de detecção de anomalia não supervisionada detectam anomalias em um conjunto de dados de teste não rotulados com a suposição de que a maioria das instâncias no conjunto de dados é normal, procurando instâncias que pareçam se encaixar menos no restante do conjunto de dados. As técnicas de detecção de anomalia supervisionada exigem um conjunto de dados rotulado como "normal" e "anormal" e envolve o treinamento de um classificador (a principal diferença em muitos outros problemas de classificação estatística é a natureza desbalanceada inerente da detecção de outliers). As técnicas de detecção de anomalia semi-supervisionadas constroem um modelo representando o comportamento normal de um determinado conjunto de dados de treinamento normal e, em seguida, testam a probabilidade de uma instância de teste ser gerada pelo modelo aprendido.
Aplicações
A detecção de anomalias é aplicável em vários domínios, como detecção de intrusão, detecção de fraude, detecção de falhas, monitoramento da integridade do sistema, detecção de eventos em redes de sensores e detecção de distúrbios do ecossistema. É também frequentemente usada no pré-processamento para remover dados anômalos do conjunto de dados. Na aprendizagem supervisionada, a remoção dos dados anômalos do conjunto de dados geralmente resulta em um aumento estatisticamente significativo na precisão.[5][6]
Técnicas populares
Diversas técnicas de detecção de anomalias têm sido propostas na literatura.[7] Algumas das técnicas populares são:
O desempenho dos diferentes métodos depende muito do conjunto de dados e parâmetros, e os métodos têm poucas vantagens sistemáticas sobre os outros quando comparados em muitos conjuntos de dados e parâmetros.[19][20]
Aplicação em segurança dos dados
A detecção de anomalias foi proposta para sistemas de detecção de intrusão (IDS) por Dorothy Denning em 1986.[21] A detecção de anomalias para o IDS é normalmente realizada com limiares e estatísticas, mas também pode ser feita com soluções aproximadas e aprendizado indutivo.[22] Os tipos de estatística propostos em 1999 incluíam perfis de usuários, estações de trabalho, redes, hosts remotos, grupos de usuários e programas baseados em frequências, médias, variâncias, covariâncias e desvios padrão.[23] A contrapartida da detecção de anomalias na detecção de intrusão é a detecção de uso indevido .
Programas
- O ELKI é um kit de ferramentas de mineração de dados Java de código aberto que contém vários algoritmos de detecção de anomalias, bem como aceleração de índice para eles.
Conjuntos de dados
Referências
- ↑ a b Zimek, Arthur; Schubert, Erich (2017), «Outlier Detection», ISBN 9781489979933, Springer New York, Encyclopedia of Database Systems: 1–5, doi:10.1007/978-1-4899-7993-3_80719-1
- ↑ «A Survey of Outlier Detection Methodologies» (PDF). Artificial Intelligence Review. 22. CiteSeerX 10.1.1.318.4023. doi:10.1007/s10462-004-4304-y
- ↑ «Data mining for network intrusion detection» (PDF). Proceedings NSF Workshop on Next Generation Data Mining
- ↑ «Anomaly detection: A survey». ACM Computing Surveys. 41. doi:10.1145/1541880.1541882
- ↑ «An Experiment with the Edited Nearest-Neighbor Rule». IEEE Transactions on Systems, Man, and Cybernetics. 6. doi:10.1109/TSMC.1976.4309523
- ↑ Smith, M. R.; Martinez, T. «Improving classification accuracy by identifying and removing instances that should be misclassified». The 2011 International Joint Conference on Neural Networks. [S.l.: s.n.] ISBN 978-1-4244-9635-8. doi:10.1109/IJCNN.2011.6033571
- ↑ «There and back again: Outlier detection between statistical reasoning and data mining algorithms». Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 8. ISSN 1942-4787. doi:10.1002/widm.1280
- ↑ «Distance-based outliers: Algorithms and applications». The VLDB Journal the International Journal on Very Large Data Bases. 8. CiteSeerX 10.1.1.43.1842. doi:10.1007/s007780050006
- ↑ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (dezembro de 2008). Isolation Forest. [S.l.: s.n.] ISBN 9780769535029. doi:10.1109/ICDM.2008.17
- ↑ «Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection». Data Mining and Knowledge Discovery. 28. doi:10.1007/s10618-012-0300-z
- ↑ «Tensor-based anomaly detection: An interdisciplinary survey». Knowledge-Based Systems. 98. doi:10.1016/j.knosys.2016.01.027
- ↑ «A survey on unsupervised outlier detection in high-dimensional numerical data». Statistical Analysis and Data Mining. 5. doi:10.1002/sam.11161
- ↑ «Estimating the Support of a High-Dimensional Distribution». Neural Computation. 13. CiteSeerX 10.1.1.4.4106. PMID 11440593. doi:10.1162/089976601750264965
- ↑ a b c Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan. «Outlier Detection Using Replicator Neural Networks». Data Warehousing and Knowledge Discovery. Col: Lecture Notes in Computer Science. 2454. [S.l.: s.n.] ISBN 978-3-540-44123-6. doi:10.1007/3-540-46145-0_17
- ↑ «Discovering cluster-based local outliers». Pattern Recognition Letters. 24. CiteSeerX 10.1.1.20.4242. doi:10.1016/S0167-8655(03)00003-5
- ↑ «Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection». ACM Transactions on Knowledge Discovery from Data. 10. doi:10.1145/2733381
- ↑ Lazarevic, A.; Kumar, V. Feature bagging for outlier detection. [S.l.: s.n.] ISBN 978-1-59593-135-1. doi:10.1145/1081870.1081891
- ↑ «Ensembles for unsupervised outlier detection». ACM SIGKDD Explorations Newsletter. 15. doi:10.1145/2594473.2594476
- ↑ «On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study». Data Mining and Knowledge Discovery. 30. ISSN 1384-5810. doi:10.1007/s10618-015-0444-8
- ↑ Repositório de dados de referência de detecção de anomalias da Ludwig-Maximilians-Universität München ; Espelho na Universidade de São Paulo .
- ↑ «An Intrusion-Detection Model» (PDF). IEEE Transactions on Software Engineering. SE-13. CiteSeerX 10.1.1.102.5127. doi:10.1109/TSE.1987.232894
- ↑ Teng, H. S.; Chen, K.; Lu, S. C. Adaptive real-time anomaly detection using inductively generated sequential patterns (PDF). [S.l.: s.n.] ISBN 978-0-8186-2060-7. doi:10.1109/RISP.1990.63857
- ↑ «Computer System Intrusion Detection: A Survey». Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802