Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».
En théorie de l'information, l'entropie conditionnelle décrit la quantité d'information nécessaire pour connaitre le comportement d'une variable aléatoire, lorsque l'on connait exactement une variable aléatoire . On note l'entropie conditionnelle de sachant . On dit aussi parfois entropiedeconditionnéepar[1]. Comme les autres entropies, elle se mesure généralement en bits.
On peut introduire l'entropie conditionnelle de plusieurs façons, soit directement à partir des probabilités conditionnelles, soit en passant par l'entropie conjointe. Les deux définitions sont équivalentes.
Étant donné deux variables aléatoires et avec pour entropies respectives et , et pour entropie conjointe, l'entropie conditionnelle de sachant est définie par :
lorsque tous les termes de la somme sont nulles. Soit tel que , on a donc , ce qui implique qu'il existe un unique élément vérifiant . On peut donc définir une fonction telle que pour tous les éléments de probabilité non nulle. Comme toutes les probabilités somment à , la probabilité de est entièrement définie
Règle de la chaîne : avec variables aléatoires,
Démonstration
On connait la relation équivalente pour des probabilités :
Intuitivement, si le système combiné contient bits d'information, et si nous connaissons parfaitement la variable aléatoire , pour coder le système on peut économiser bits, et on n'a plus besoin que de bits.
↑Antoine Cornuéjols, Laurent Miclet et Vincent Barra, Apprentissage artificiel: Deep learning, concepts et algorithmes, EYROLLES, (ISBN978-2-212-67522-1, lire en ligne), p. 446