统计学和机器学习中,想用一组变量推断一个随机变量时,通常子集就够了,其他变量都是无用的。这种包含所有有效信息的子集就称作马尔可夫毯(Markov blanket)。若马尔可夫毯是最小的,即放弃任何变量都会损失信息,就称之为马尔可夫边界(Markov boundary)。识别马尔可夫毯和马尔可夫边界有助于提取有用特征。这两个术语是朱迪亚·珀尔 (1988)创造的。[1]马尔可夫毯可视作是多个马尔科夫链组成的。
随机变量集中随机变量Y的马尔可夫毯是的任意子集,条件是其他变量与Y相互独立:
即,至少包含推断Y所需的全部信息,其中中的变量是冗余的。
一般来说,给定的马尔可夫毯不唯一。中任何包含马尔可夫毯的集合本身也是马尔可夫毯。 具体说,是中Y的马尔可夫毯。
中Y的马尔可夫边界是的子集,使得本身是Y的马尔可夫毯,但的真子集都不是Y的马尔可夫毯。也就是说,马尔可夫边界是最小马尔可夫毯。
贝叶斯网络中节点A的马尔可夫边界是由A的父节点、子节点与子节点的其他父节点构成的节点集。马尔可夫网络中,节点的马尔可夫边界是其邻节点集合。依赖网络中,节点的马尔可夫边界是其父节点的集合。
马尔可夫边界总存在。某些较温和的条件下,马尔可夫边界是唯一的。但对大多数情形,多个马尔可夫边界可能会提供不同的解。[2]存在多个马尔可夫边界时,测量因果效应的数量可能失效。[3]
- ^ Pearl, Judea. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Representation and Reasoning Series. San Mateo CA: Morgan Kaufmann. 1988. ISBN 0-934613-73-7.
- ^ Statnikov, Alexander; Lytkin, Nikita I.; Lemeire, Jan; Aliferis, Constantin F. Algorithms for discovery of multiple Markov boundaries (PDF). Journal of Machine Learning Research. 2013, 14: 499–566.
- ^ Wang, Yue; Wang, Linbo. Causal inference in degenerate systems: An impossibility result. Proceedings of the 23rd International Conference on Artificial Intelligence and Statistics. 2020: 3383–3392.