Dans l'exploration de données, la détection d'anomalies (en anglais, anomaly detection ou outlier detection[1]) est l'identification d'éléments, d'événements ou d'observations rares qui soulèvent des suspicions en différant de manière significative de la majorité des autres données[1].
Généralement, les anomalies indiquent un problème tel qu'une fraude bancaire, un défaut structurel, un problème médical ou une erreur dans un texte. Les anomalies sont également appelées des valeurs aberrantes, du bruit, des écarts ou des exceptions[2].
Dans le contexte de détection d'intrusions sur un réseau informatique, les objets intéressants ne sont souvent pas des objets rares, mais des pics d'activités inattendus. Ce modèle n'adhère pas à la définition d'une anomalie en tant qu'objet rare et de nombreuses méthodes de détection d'anomalies (en particulier, des méthodes non supervisées) échouent à identifier ces anomalies, à moins que les anomalies aient été agrégées de manière appropriée. Dans de telles situations, un algorithme d'analyse par partitionnement de données peut être capable de détecter ces problèmes[3].
Il existe trois grandes catégories de techniques de détection d'anomalies[4] :
les techniques de détection d'anomalies non supervisées détectent les anomalies dans un ensemble de données non étiquetées en supposant que la majorité des instances de l'ensemble de données sont normales et en recherchant les instances qui ne correspondent pas au reste des données ;
les techniques de détection d'anomalies supervisées nécessitent un ensemble de données où les données sont étiquetées normales ou anormales et impliquent l'entrainement d'un classificateur (la principale différence par rapport à de nombreux autres problèmes de classification statistique réside dans la nature déséquilibrée de la détection des valeurs aberrantes) ;
les techniques de détection d'anomalies semi-supervisées construisent un modèle représentant le comportement normal d'un ensemble de données normales, puis testent la probabilité qu'une instance de test soit compatible avec le modèle.
La détection d'anomalies est applicable dans divers domaines, tels que la détection d'intrusions, la détection de fraudes, la détection de défauts, la surveillance de l'état du système, la détection d'événements dans des réseaux de capteurs et la détection de perturbations d'un écosystème.
La détection d'anomalies est aussi souvent utilisée dans le prétraitement de données pour supprimer des données anormales d'un ensemble de données. Dans l'apprentissage supervisé, la suppression des données anormales de l'ensemble de données entraîne souvent une augmentation statistiquement significative de la précision de l'apprentissage[5],[6].
Les performances des différentes méthodes dépendent beaucoup du jeu de données et des paramètres, et les méthodes présentent peu d'avantages systématiques par rapport aux autres lorsqu'elles sont comparées entre plusieurs jeux de données et de paramètres[28],[29].
↑Paul Dokas, Levent Ertoz, Vipin Kumar, Aleksandar Lazarevic, Jaideep Srivastava et Pang-Ning Tan, « Data mining for network intrusion detection », Proceedings NSF Workshop on Next Generation Data Mining, (lire en ligne)
↑M. R. Smith et T. Martinez, The 2011 International Joint Conference on Neural Networks, , 2690 p. (ISBN978-1-4244-9635-8, DOI10.1109/IJCNN.2011.6033571, lire en ligne), « Improving classification accuracy by identifying and removing instances that should be misclassified »
↑Arthur Zimek et Peter Filzmoser, « There and back again: Outlier detection between statistical reasoning and data mining algorithms », Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, vol. 8, no 6, , e1280 (ISSN1942-4787, DOI10.1002/widm.1280)
↑E. M. Knorr, R. T. Ng et V. Tucakov, « Distance-based outliers: Algorithms and applications », The VLDB Journal the International Journal on Very Large Data Bases, vol. 8, nos 3–4, , p. 237–253 (DOI10.1007/s007780050006, CiteSeerx10.1.1.43.1842)
↑S. Ramaswamy, R. Rastogi et K. Shim « Efficient algorithms for mining outliers from large data sets » () (DOI10.1145/342009.335437) —Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00
↑F. Angiulli et C. Pizzuti « Fast Outlier Detection in High Dimensional Spaces » () (DOI10.1007/3-540-45681-3_2) —Principles of Data Mining and Knowledge Discovery
↑M. M. Breunig, H.-P. Kriegel, R. T. Ng et J. Sander « LOF: Identifying Density-based Local Outliers » () (DOI10.1145/335191.335388, lire en ligne) — « (ibid.) », Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, , p. 93–104
↑E. Schubert, A. Zimek et H. -P. Kriegel, « Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection », Data Mining and Knowledge Discovery, vol. 28, , p. 190–237 (DOI10.1007/s10618-012-0300-z)
↑H. P. Kriegel, P. Kroger, E. Schubert et A. Zimek« Outlier Detection in Arbitrarily Oriented Subspaces » () (DOI10.1109/ICDM.2012.21) —2012 IEEE 12th International Conference on Data Mining
↑H. Fanaee-T et J. Gama, « Tensor-based anomaly detection: An interdisciplinary survey », Knowledge-Based Systems, vol. 98, , p. 130–147 (DOI10.1016/j.knosys.2016.01.027)
↑A. Zimek, E. Schubert et H.-P. Kriegel, « A survey on unsupervised outlier detection in high-dimensional numerical data », Statistical Analysis and Data Mining, vol. 5, no 5, , p. 363–387 (DOI10.1002/sam.11161)
↑B. Schölkopf, J. C. Platt, J. Shawe-Taylor, A. J. Smola et R. C. Williamson, « Estimating the Support of a High-Dimensional Distribution », Neural Computation, vol. 13, no 7, , p. 1443–71 (PMID11440593, DOI10.1162/089976601750264965, CiteSeerx10.1.1.4.4106)
↑ ab et cSimon Hawkins, Hongxing He, Graham Williams et Rohan Baxter, Data Warehousing and Knowledge Discovery, vol. 2454, coll. « Lecture Notes in Computer Science », , 337 p. (ISBN978-3-540-44123-6, DOI10.1007/3-540-46145-0_17, lire en ligne), « Outlier Detection Using Replicator Neural Networks »
↑R. J. G. B. Campello, D. Moulavi, A. Zimek et J. Sander, « Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection », ACM Transactions on Knowledge Discovery from Data, vol. 10, no 1, , p. 5:1–51 (DOI10.1145/2733381)
↑A. Lazarevic et V. Kumar, Feature bagging for outlier detection (Proc. 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining), , 157–166 p. (ISBN978-1-59593-135-1, DOI10.1145/1081870.1081891)
↑H. V. Nguyen, H. H. Ang et V. Gopalkrishnan « Mining Outliers with Ensemble of Heterogeneous Detectors on Random Subspaces » () (DOI10.1007/978-3-642-12026-8_29) —Database Systems for Advanced Applications
↑E. Schubert, R. Wojdanowski, A. Zimek et H. P. Kriegel« On Evaluation of Outlier Rankings and Outlier Scores » () (DOI10.1137/1.9781611972825.90) —Proceedings of the 2012 SIAM International Conference on Data Mining
↑A. Zimek, R. J. G. B. Campello et J. R. Sander, « Ensembles for unsupervised outlier detection », ACM SIGKDD Explorations Newsletter, vol. 15, , p. 11–22 (DOI10.1145/2594473.2594476)
↑A. Zimek, R. J. G. B. Campello et J. R. Sander « Data perturbation for outlier detection ensembles » () (DOI10.1145/2618243.2618257) —Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14
↑Guilherme O. Campos, Arthur Zimek, Jörg Sander, Ricardo J. G. B. Campello, Barbora Micenková, Erich Schubert, Ira Assent et Michael E. Houle, « On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study », Data Mining and Knowledge Discovery, vol. 30, no 4, , p. 891 (ISSN1384-5810, DOI10.1007/s10618-015-0444-8)
↑H. S. Teng, K. Chen et S. C. Lu, Adaptive real-time anomaly detection using inductively generated sequential patterns (Proceedings of the IEEE Computer Society Symposium on Research in Security and Privacy), , 401 p. (ISBN978-0-8186-2060-7, DOI10.1109/RISP.1990.63857, lire en ligne)