Isolation Forest (en español Bosque de aislamiento) es un algoritmo para la detección de anomalías en los datos desarrollado inicialmente por Fei Tony Liu en 2008.[1] Isolation Forest detecta anomalías utilizando árboles binarios. El algoritmo tiene una complejidad temporal lineal y requiere poca memoria, por lo que funciona bien con grandes volúmenes de datos.[2][3] En esencia, el algoritmo se basa en las características de las anomalías, es decir, que sean pocas y diferentes, para detectarlas. En el algoritmo no se realiza ninguna estimación de la densidad. El algoritmo se diferencia de los algoritmos de árbol de decisión en que sólo se utiliza la medida o aproximación de la longitud del camino para generar la puntuación de la anomalía, no se necesitan estadísticas de los nodos hoja sobre la distribución de clases o el valor objetivo.
El bosque de aislamiento es rápido porque divide el espacio de datos de forma aleatoria, utilizando un atributo seleccionado al azar y un punto de división seleccionado al azar. La puntuación de la anomalía está inversamente asociada a la longitud del camino, ya que las anomalías necesitan menos divisiones para ser aisladas, debido a que son pocas y diferentes.
El algoritmo Isolation Forest (iForest) fue propuesto inicialmente por Fei Tony Liu, Kai Ming Ting y Zhi-Hua Zhou en 2008.[2] En 2010, se desarrolló una extensión del algoritmo - SCiforest[4] para abordar anomalías agrupadas y paralelas a ejes. En 2012[3] los mismos autores demostraron que iForest tiene una complejidad temporal lineal, un pequeño requerimiento de memoria y es aplicable a datos de alta dimensión.
La premisa del algoritmo Isolation Forest es que los puntos de datos anómalos son más fáciles de separar del resto de la muestra. Para aislar un punto de datos, el algoritmo genera recursivamente particiones en la muestra seleccionando aleatoriamente un atributo y, a continuación, seleccionando aleatoriamente un valor de partición entre los valores mínimo y máximo permitidos para ese atributo.
En la figura 2 se muestra un ejemplo de partición aleatoria en un conjunto de datos 2D de puntos distribuidos normalmente para un punto no anómalo y en la figura 3 para un punto que tiene más probabilidades de ser una anomalía. En las imágenes se aprecia cómo las anomalías requieren menos particiones aleatorias para ser aisladas, en comparación con los puntos normales.
La partición recursiva puede representarse mediante una estructura de árbol denominada Árbol de aislamiento, mientras que el número de particiones necesarias para aislar un punto puede interpretarse como la longitud del camino, dentro del árbol, para llegar a un nodo terminal partiendo de la raíz. Por ejemplo, la longitud de la trayectoria del punto en la figura 2 es mayor que la longitud del recorrido de en la figura 3.
será un conjunto de puntos d-dimensionales y . Un árbol de aislamiento (iTree) se define como una estructura de datos con las siguientes propiedades:
para cada nodo en el árbol, es un nodo externo sin ningún hijo, o un nodo interno con un «test» y exactamente dos nodos hijos ( y )
una prueba en el nodo consiste en un atributo y un valor dividido de forma que la prueba determina el recorrido de un punto de datos a o .
Para construir un iTree, el algoritmo divide recursivamente seleccionando aleatoriamente un atributo y un valor dividido , hasta que:
el nodo sólo tiene una instancia, o
todos los datos del nodo tienen los mismos valores.
Cuando el iTree está completamente desarrollado, cada punto de se aísla en uno de los nodos externos. Intuitivamente, los puntos anómalos son aquellos (más fáciles de aislar, por tanto) con la menor longitud de camino en el árbol, donde la longitud de camino del punto se define como el número de aristas que atraviesan desde el nodo raíz para llegar a un nodo externo.
En el documento original de iForest se ofrece una explicación probabilística de iTree.[2]
Submuestreo: Como iForest no necesita aislar todas las instancias normales, con frecuencia puede ignorar la mayor parte de la muestra de entrenamiento. En consecuencia, iForest funciona muy bien cuando el tamaño del muestreo se mantiene pequeño, una propiedad que contrasta con la gran mayoría de los métodos existentes, en los que suele ser deseable un tamaño de muestreo grande.[2][3]
Swamping: Cuando las instancias normales están demasiado cerca de las anomalías, aumenta el número de particiones necesarias para separar las anomalías, fenómeno conocido como swamping, que hace más difícil para iForest discriminar entre anomalías y puntos normales. Una de las principales razones del swamping es la presencia de demasiados datos para los fines de la detección de anomalías, lo que implica que una posible solución al problema es el submuestreo. Dado que el submuestreo responde muy bien en términos de rendimiento, la reducción del número de puntos de la muestra también es una buena forma de reducir el efecto del swamping.[2]
Enmascaramiento (masking): Cuando el número de anomalías es elevado, es posible que algunas de ellas se agreguen en un conglomerado denso y grande, lo que hace más difícil separar las anomalías individuales y, a su vez, detectar esos puntos como anómalos. De forma similar al swamping, este fenómeno (conocido como «masking») también es más probable cuando el número de puntos de la muestra es grande y puede paliarse mediante submuestreo.[2]
Datos de alta dimensión: Una de las principales limitaciones de los métodos estándar basados en la distancia es su ineficacia a la hora de tratar conjuntos de datos de alta dimensión.[5] La razón principal es que, en un espacio de alta dimensión, cada punto es igualmente disperso, por lo que utilizar una medida de separación basada en la distancia es bastante ineficaz. Desgraciadamente, los datos de alta dimensionalidad también afectan al rendimiento de detección de iForest, pero el rendimiento puede mejorarse enormemente añadiendo una prueba de selección de características, como Kurtosis, para reducir la dimensionalidad del espacio muestral.[2][4]
Sólo instancias normales: iForest funciona bien incluso si el conjunto de entrenamiento no contiene ningún punto anómalo,[4] la razón es que iForest describe las distribuciones de datos de tal manera que los valores altos de la longitud del camino corresponden a la presencia de puntos de datos. En consecuencia, la presencia de anomalías es bastante irrelevante para el rendimiento de detección de iForest.
La detección de anomalías con Isolation Forest es un proceso compuesto por dos etapas principales:[4]
En la primera etapa, se utiliza un conjunto de datos de entrenamiento para construir iTrees.
En la segunda fase, cada instancia del conjunto de pruebas pasa por estos iTrees y se le asigna una «puntuación de anomalía» adecuada.
Una vez que se ha asignado una puntuación de anomalía a todas las instancias del conjunto de pruebas, es posible marcar como «anomalía» cualquier punto cuya puntuación sea superior a un umbral predefinido, que depende del dominio al que se aplique el análisis.
El algoritmo para calcular la puntuación de anomalía de un punto de datos se basa en la observación de que la estructura de los iTrees es equivalente a la de los árboles binarios de búsquedaBinary Search Trees (BST): una terminación en un nodo externo del iTree corresponde a una búsqueda fallida en el BST.[4] En consecuencia, la estimación de la media para las terminaciones de nodos externos es la misma que la de las búsquedas fallidas en BST, es decir:[6]
Donde es el tamaño de los datos de prueba, es el tamaño de la muestra y es el número armónico, que puede estimarse mediante , donde es la constante de Euler-Mascheroni.
El valor de c(m) anterior representa la media de según , por lo que podemos utilizarlo para normalizar y obtener una estimación de la puntuación de anomalía para una instancia x dada:
Donde es el valor promedio de de una colección de iTrees. Es interesante observar que para cualquier instancia dada :
si esta cerca de entonces es muy probable que sea una anomalía.
si es menor de entonces es probable que sea un valor normal.
si para una muestra dada se asigna a todas las instancias una puntuación de anomalía de alrededor de , entonces es seguro asumir que la muestra no tiene ninguna anomalía.