Una red bayesiana, red de Bayes, red de creencia, modelo bayesiano (de Bayes) o modelo probabilístico en un grafo acíclico dirigido es un modelo grafo probabilístico (un tipo de modelo estático) que representa un conjunto de variables aleatorias y sus dependencias condicionales a través de un grafo acíclico dirigido (DAG por sus siglas en inglés). Por ejemplo, una red bayesiana puede representar las relaciones probabilísticas entre enfermedades y síntomas. Dados los síntomas, la red puede ser usada para computar la probabilidad de la presencia de varias enfermedades. Su nombre deriva del matemático inglés del siglo XVIII Thomas Bayes.
Formalmente, las redes bayesianas son grafos dirigidos acíclicos cuyos nodos representan variables aleatorias en el sentido de Bayes: las mismas pueden ser cantidades observables, variables latentes, parámetros desconocidos o hipótesis. Las aristas representan dependencias condicionales; los nodos que no se encuentran conectados representan variables las cuales son condicionalmente independientes de las otras. Cada nodo tiene asociado una función de probabilidad que toma como entrada un conjunto particular de valores de las variables padres del nodo y devuelve la probabilidad de la variable representada por el nodo. Por ejemplo, si por padres son variables booleanas entonces la función de probabilidad puede ser representada por una tabla de entradas, una entrada para cada una de las posibles combinaciones de los padres siendo verdadero o falso. Ideas similares pueden ser aplicadas a grafos no dirigidos, y posiblemente cíclicos; como son las llamadas redes de Markov.
Existen algoritmos eficientes que llevan a cabo la inferencia y el aprendizaje en redes bayesianas. Las redes bayesianas que modelan secuencias de variables (ej. señales del habla o secuencias de proteínas) son llamadas redes bayesianas dinámicas. Las generalizaciones de las redes bayesianas que pueden representar y resolver problemas de decisión bajo incertidumbre son llamados diagramas de influencia.
Supongamos que hay dos eventos los cuales pueden causar que la hierba esté húmeda: que el rociador esté activado o que esté lloviendo. También supongamos que la lluvia tiene un efecto directo sobre el uso del rociador (usualmente cuando llueve el rociador se encuentra apagado). Entonces la situación puede ser modelada con una red Bayesiana (como hemos visto). Las tres variables tienen dos posibles valores, T (para verdadero) y F (para falso). La función de probabilidad conjunta es:
donde los nombres de las variables han sido abreviados a G = Hierba húmeda, S = Rociador activado, y R = Lloviendo.
El modelo puede responder preguntas como "¿Cuál es la probabilidad de que esté lloviendo dado que la hierba está húmeda?" usando la fórmula de probabilidad condicional y sumando sobre todas las variables incordias:
Como está señalado explícitamente en el numerador del ejemplo, la función de probabilidad conjunta es usada para calcular cada iteración de la función de sumatoria, marginalizando sobre en el numerador y sobre y en el denominador.
Si, por otra parte, deseamos responder una pregunta intermedia: "¿Cuál es la probabilidad de que llueva dado que la hierba está húmeda?" la respuesta puede ser dada por la post-intervención de la función de distribución conjunta obtenida eliminando el factor de la distribución de pre-intervención. Como era de esperarse, la probabilidad de que llueva no es afectada por la acción: .
Si por otra parte queremos predecir el impacto que tendrá encender el rociador, tenemos entonces con el término eliminado, mostrando que la acción tiene efecto sobre la hierba pero no sobre la lluvia.
Estas predicciones no son factibles cuando alguna de las variables no son observadas, como en la mayoría de los problemas de evaluación. El efecto de la acción puede mantenerse predictivo, sin embargo, cada vez un criterio llamado "puerta trasera" es satisfecho.[1] Los estados que, si un conjunto Z de nodos se puede observar que d-separa (o bloquea) todos los caminos de "puestra trasera" desde X hasta Y entonces . Un camino de puestra trasera es uno que termina con una flecha hacia X. Los conjuntos que satisfacen el criterio de puerta trasera son llamados "suficientes" o "admisibles". Por ejemplo, el conjunto Z=R es admisible para predecir el efecto de S=T sobre G, porque R d-separa el (único) camino de puerta trasera S?R?G. Sin embargo, si S no es observado, no hay otro conjunto que d-separe este camino y el efecto de encender los rociadores (S=T) sobre la hierba (G) no puede ser predicho desde observaciones pasivas. Nosotros entonces decimos que no está identificado. Esto refleja el hecho de que, careciendo de datos intervencionales, no podemos determinar si la dependencia observada entre S y G es debido a una conexión casual o debido a una artificial creada por una causa común, R. (ver paradoja de Simpson)
Para determinar si una relación casual es identificada desde una red Bayesiana arbitraria con variables no observadas, uno puede usar las tres reglas de "do-calculus"[1][2] y probar si todos los términos do pueden ser eliminados de la expresión de la relación, así conforme que la cantidad deseada es estimable desde la frecuencia de datos.[3]
Usar una red de bayesian puede salvar las cantidades considerables de la memoria, si las dependencias en el reparto conjunto están escasas. Por ejemplo, una manera ingenua de guardar las probabilidades condicionales de 10 variables con dos valores como una tabla requiere el espacio de almacenamiento para valores. Si las distribuciones locales de ninguna variable depende de más de 3 variables padre, la representación de la red de bayesiana solamente tiene que almacenar a lo sumo valores.
Una ventaja de las redes bayesianas es que es intuitivamente más fácil para un ser humano comprender (un conjunto escaso de) dependencias directas y distribuciones locales que la distribución conjunta completa.
Hay tres tareas principales de inferencia para las redes bayesianas.
Debido a que una red bayesiana es un modelo completo de las variables y sus relaciones, se puede utilizar para responder a las consultas de probabilidad acerca de ellos. Por ejemplo, la red se puede utilizar para averiguar el conocimiento actualizado del estado de un subconjunto de variables cuando otras variables (las variables de evidencia) se observan. Este proceso de cálculo de la distribución posterior de las variables dada la evidencia que se llama inferencia probabilística. La posterior da un suficiente estadístico universal para aplicaciones de detección, cuando se quiere elegir los valores para la variable de un subconjunto que minimizan alguna función de pérdida esperada, por ejemplo, la probabilidad de error de decisión. Una red bayesiana de esta manera, puede considerarse como un mecanismo para aplicar automáticamente el teorema de Bayes a problemas complejos.
Los métodos más comunes de inferencia exactas son: eliminación de variables, el cual elimina (mediante integración o suma) las variables no observadas y no consultadas una por una mediante la distribución de la suma sobre el producto; propagación en un árbol clique, que almacena en caché el cálculo de modo que muchas variables se pueden consultar en una vez y nueva evidencia se puede propagar rápidamente; y condicionamiento recursivo y búsqueda AND/OR, que permiten un equilibrio espacio-tiempo y realiza eficientemente la eliminación de variables cuando se usa suficiente espacio. Todos estos métodos tienen una complejidad que es exponencial con respecto al ancho del árbol. Los algoritmos de inferencia aproximada más comunes son muestreo de importancia, simulación estocástica MCMC (Markov Chain Monte Carlo), eliminación mini-cubo, LBP (Loopy Belief Propagation), GBP (Generalized Belief Propagation), y los métodos variacionales.
Para especificar completamente la red bayesiana y por lo tanto representar plenamente a la distribución de probabilidad conjunta , es necesario especificar para cada nodo X la distribución de probabilidad de X condicionada dado sus padres. La distribución de X condicionada dado sus padres puede tener cualquier forma. Es común trabajar con distribuciones discretas o gaussianas ya que simplifica los cálculos. A veces sólo restricciones sobre una distribución son conocidas; uno puede entonces utilizar el principio de máxima entropía para determinar una distribución única. (Análogamente, en el contexto específico de una red bayesiana dinámica, una que comúnmente especifica la distribución condicional para la evolución temporal del estado ocultos para maximizar la tasa de entropía del proceso estocástico implícito) A menudo, estas distribuciones condicionales incluyen parámetros que son desconocidos y deben estimarse a partir de los datos, a veces utilizando el enfoque de máxima probabilidad. La maximización directa de la probabilidad (o de la probabilidad posterior) es a menudo compleja cuando hay variables no observadas. Un método clásico de este problema es el algoritmo de expectación-maximización el cual alterna los valores esperados computados de las variables condicionales no observadas a datos observados, con la maximización de la probabilidad total (o posterior) suponiendo que previamente calculados los valores esperados son correctas. Bajo condiciones de regularidad leves este proceso converge en valores de probabilidad máxima (o máximo posterior) para los parámetros. Un enfoque más Bayesiano es tratar a los parámetros como variables no observadas adicionales y para calcular la distribución posterior completa sobre todos los nodos condicionales de los datos observados, después, integrar los parámetros. Este enfoque puede ser costoso y llevar a modelos de grandes dimensiones, por lo que en la práctica enfoques de ajuste de parámetros clásicos son más comunes.
En el caso más simple, una red bayesiana se especifica por un experto y se utiliza entonces para realizar inferencia. En otras aplicaciones, la tarea de definir la red es demasiado compleja para los seres humanos. En este caso la estructura de la red y los parámetros de las distribuciones locales debe ser aprendido de datos.
El aprendizaje automático de la estructura gráfica de una red bayesiana es un reto dentro del aprendizaje de máquina. La idea básica se remonta a un algoritmo de recuperación desarrollado por Rebane y Pearl (1987)[4] y se basa en la distinción entre los tres tipos posibles de triplos adyacentes permitidos en un gráfico acíclico dirigido (DAG):
Tipo 1 y tipo 2 representan las mismas dependencias ( y son independientes dada ) y son, por tanto, indistinguibles. Tipo 3, sin embargo, puede ser identificado de forma única, ya que y son marginalmente independientes y todos los otros pares son dependientes. Así, mientras que los esqueletos (los grafos despojados de flechas) de estos tres triplos son idénticos, la direccionalidad de las flechas es parcialmente identificable. La misma distinción se aplica cuando y tienen padres comunes, excepto que uno debe condicionar primero en esos padres. Se han desarrollado algoritmos para determinar sistemáticamente el esqueleto del grafo subyacente y, a continuación, orientar todas las flechas cuya direccionalidad está dictada por las independencias condicionales observados.[1][5][6][7]
Un método alternativo de aprendizaje estructural utiliza la optimización basada en búsquedas. Se requiere una función de puntuación y una estrategia de búsqueda. Una función de puntuación común es la probabilidad posterior de la estructura dado los datos de formación. El requisito de tiempo de una búsqueda exhaustiva retornando una estructura que maximice la puntuación es superexponencial en el número de variables. Una estrategia de búsqueda local hace cambios incrementales destinados a mejorar la puntuación de la estructura. Un algoritmo de búsqueda global como la cadena de Markov Monte Carlo puede evitar quedar atrapado en mínimos locales. Friedman et al.[8][9] habla acerca del uso de la información mutua entre las variables y encontrar una estructura que maximiza esto. Lo hacen mediante la restricción del conjunto de padres candidatos a k nodos y exhaustivamente buscan en el mismo.
Dados los datos y el parámetro , Un simple análisis Bayesiano comienza con una probabilidad a priori (antes) y probabilidad para calcular una probabilidad posterior . A menudo, el antes en , depende a su vez de otros parámetros que no se mencionan en la probabilidad. Por lo tanto, la previa debe ser sustituido por una probabilidad , y un previo en los parámetros introducidos recientemente se requiere, lo que resulta en una probabilidad posterior
Este es el ejemplo más simple de un modelo jerárquico Bayesiano. El proceso se puede repetir, por ejemplo, los parámetros pueden depender a su vez de parámetros adicionales , lo que requerirá su propio previo. Finalmente, el proceso debe terminar, con previos que no dependen de otros parámetros no se han mencionado.
Supongamos que hemos medido las cantidades cada una con una distribución normal de los errores conocidos y desviación estándar ,
Supongamos que estamos interesados en estimar la . Un enfoque sería estimar la utilizando un enfoque de máxima verosimilitud; ya que las observaciones son independientes, la probabilidad factoriza y la estimación de máxima probabilidad es simplemente
Sin embargo, si las cantidades están relacionados, de modo que por ejemplo se puede pensar que los individuales han sido extraídos de una distribución subyacente, a continuación, esta relación destruye la independencia y sugiere un modelo más complejo, por ejemplo,
con previos inapropiados plana, plano. ¿Cuándo , este es un modelo identificado (es decir, existe una única solución para los parámetros del modelo), y la distribución posterior de la individual tenderá a moverse o reducir la distancia de máxima verosimilitud estimada hacia su media común. Esta contracción es un comportamiento típico de los modelos jerárquicos bayesianos.
Hay que tener algún cuidado al elegir los previos en un modelo jerárquico, en particular sobre las variables de escala en los niveles superiores de la jerarquía, como la variable en el ejemplo. Los previos habituales, tales como los previos de Jeffrey a menudo no funcionan, debido a que la distribución posterior será incorrecta (no normalizable), y estimaciones realizadas por reducir al mínimo la pérdida esperada será inadmisible .
Hay varias definiciones equivalentes de una red bayesiana. Por todo lo siguiente, sea G = (V, E) un gráfico acíclico dirigido (o DAG), y sea X = (Xv)v ? V un conjunto de variables aleatorias indexadas por V.
X es una red bayesiana con respecto a G si su función de densidad de probabilidad conjunta (con respecto a una medida de producto) se puede escribir como un producto de las funciones de densidad individuales, condicionadas a las variables de sus padres:[10]
donde pa(v) es el conjunto de padres de v (es decir, los vértices apuntando directamente a v a través de una sola arista).
Para cualquier conjunto de variables aleatorias, la probabilidad de cualquier miembro de una distribución conjunta se puede calcular a partir de las probabilidades condicionales utilizando la regla de la cadena (dado un ordenamiento topológico de X) como sigue:[10]
Compárese esto con la definición anterior, que puede ser escrita como: por cada el cual es padre de
La diferencia entre las dos expresiones es la independencia condicional de las variables de cualquiera de sus no-descendientes, dados los valores de las variables de sus padres.
X es una red bayesiana con respecto a V si satisface la propiedad local de Markov: cada variable es condicionalmente independiente de sus no-descendientes dado sus variables padres:[11]
donde de(v) es el conjunto de descendientes de v.
Esto también se puede expresar en términos similares a la primera definición, como
Tenga en cuenta que el conjunto de los padres es un subconjunto del conjunto de los no descendientes porque el grafo es acíclico.
Desarrollar una red bayesiana, que a menudo se desarrolla primero un DAG G tal que creemos que X satisface la propiedad local de Markov con respecto a G. A veces esto se hace creando un DAG casual. A continuación, determinar las distribuciones de probabilidad condicional de cada variable dados sus padres en G. En muchos casos, en particular en el caso donde las variables son discretas, si se define la distribución conjunta de X como el producto de las distribuciones condicionales, entonces X es una red bayesiana con respecto a G.[12]
Un modelo oculto de Markov comparte propiedades estadísticas similares a un modelo normal de Markov, pero en lugar de hacer inferencias basadas en estados directamente, se utilizan observaciones basadas en esos estados.
La manta de Markov de un nodo es el conjunto de nodos vecinos: sus padres, sus hijos y otros padres de sus hijos. X es una red bayesiana con respecto a G si cada nodo es condicionalmente independiente de todos los demás nodos de la red, dada su manta Markov.[11] Esto significa que la manta de Markov de un nodo es el único conocimiento necesario para predecir el comportamiento de ese nodo y sus hijos.
Esta definición puede ser más general mediante la definición de la "d" de separación de dos nodos, donde d es direccional.[13][14] Sea P un camino (es decir, una colección de aristas, que es como un camino, pero cada una de cuyas aristas pueden tener cualquier dirección) de un nodo de u a v. Entonces P se dice que es d-separado por un conjunto de nodos Z si y sólo si (al menos) uno de cumple lo siguiente:
Así, u y v se dice que están d-separados por Z si todas las rutas entre ellos son d-separados. Si U y V no son d-separados, se les llama d-conectado.
X es una red bayesiana con respecto a G si, para cualquier par de nodos u, v:
donde Z es un conjunto que d-separa u y v. (La manta de Markov es el conjunto mínimo de nodos que d-separa al nodo v de todos los demás nodos)
El término modelo jerárquico a veces se considera un tipo particular de red Bayesiana, pero no tiene una definición formal. A veces el término se reserva para los modelos con tres o más niveles de las variables aleatorias, en otras ocasiones, se reserva para los modelos con variables latentes. En general, sin embargo, cualquier red Bayesiana moderadamente compleja suele llamarse "jerárquica".
Aunque las redes Bayesianas se utilizan a menudo para representar relaciones causales, esto no tiene por qué ser el caso: una arista dirigida de u a v no requiere que Xv sea causalmente dependiente de Xu. Esto se demuestra por el hecho de que las redes Bayesianas en los grafos:
son equivalentes, es decir imponen exactamente los mismos requisitos de independencia condicional.
Una red causal es una red Bayesiana con un requisito explícito de que la relación sea causal. Las semánticas adicionales de las redes causales especifican que si un nodo X está activamente causado a estar en un estado dado x (una acción escrita como lo hacen (X=x)), entonces la probabilidad de cambios de la función de densidad a la de la red obtenida por cortar los vínculos de los padres de X a X, y el seteando X al valor causada x.[1] El uso de estas semánticas, se puede predecir el impacto de las intervenciones externas de los datos obtenidos antes de la intervención.
Las redes Bayesianas se utilizan para el modelado del conocimiento en biología computacional y bioinformática (redes reguladoras de genes, la estructura de la proteína, la expresión de genes de análisis,[15] el aprendizaje de epistasis a partir de los conjuntos de datos de GWAS[16]), la medicina,[17] biomonitoreo,[18] la clasificación de documentos, recuperación de información,[19] la búsqueda semántica,[20] el procesamiento de imágenes, fusión de datos, sistemas de soporte de decisiones,[21] la ingeniería, los juegos y la ley.[22][23][24]
Otras de las aplicaciones actuales es a la ciencia de datos ya que se ayuda de tablas de probabilidades condicionales respecto a los nodos y ayuda para predicciones y análisis de datos[cita requerida].
El término "redes bayesianas" fue acuñado por Judea Pearl en 1985 para hacer hincapié en tres aspectos:[25]
A finales de 1980 los textos seminales Razonamiento Probabilístico en Sistemas Inteligentes[27] y Razonamiento Probabilístico en Sistemas Expertos[28] resume las propiedades de las redes Bayesianas y ayudó a establecer las mismas como un campo de estudio.
Variantes informales de este tipo de redes se utilizaron por primera vez por el jurista John Henry Wigmore, en forma de grafos de Wigmore, para analizar la evidencia en un juicio en 1913.[23]: 66–76 Otra variante, llamada diagrama de rutas, fue desarrollada por el genetista Sewall Wright[29] y utilizado en ciencias de la conducta y sociales (en su mayoría con modelos paramétricos lineales).