ГМП можливо розглядати як композицію простих некерованих мереж, таких як обмежені машини Больцмана (ОМБ)[2] або автокодувальники,[4] в якій прихований шар кожної підмережі слугує видимим шаром для наступної. ОМБ — це неорієнтована породжувальна модель на основі енергії з «видимим» шаром входу та прихованим шаром і зв'язками між шарами, але не всередині них. Така композиція веде до швидкої пошарової процедури некерованого тренування, де контрастове розходження застосовують по черзі до кожної підмережі, починаючи з «найнижчої» пари шарів (найнижчий видимий шар — це тренувальний набір).
Обмежена машина Больцмана (ОМБ) з повноз'єднаними видимими та прихованими вузлами. Зауважте, що з'єднань прихований-прихований та видимий-видимий немає.
де — ймовірність видимого вектора, задана як . це статистична сума[en] (яку використовують для нормування), а — функція енергії, приписаної станові мережі. Нижча енергія вказує на те, що мережа має «бажанішу» конфігурацію. Градієнт має простий вигляд , де подають усереднення відносно розподілу . Проблема виникає у вибиранні , оскільки воно вимагає розширеного навперемінного ґіббзового вибирання[en]. КР замінює цей крок виконанням альтернативного ґіббзового вибирання для кроків (значення працюють добре). Після кроків дані вибирають, і цю вибірку використовують замість . Процедура КР працює наступним чином:[11]
Встановити видимі вузли у значення тренувального вектора.
Уточнити приховані вузли паралельним чином, враховуючи видимі вузли: . — сигмоїдна функція, а — зміщення .
Уточнити видимі вузли паралельним чином, враховуючи приховані вузли: . — зміщення . Це називають етапом «відбудовування».
Переуточнити приховані вузли паралельним чином, враховуючи відбудовані видимі вузли, використовуючи те саме рівняння, що й у кроці 2.
Виконати уточнення ваг: .
Щойно ОМБ натреновано, поверх неї «накладають» іншу ОМБ, беручи її вхід з останнього натренованого рівня. Новий видимий шар встановлюють у значення тренувального вектора, а значення для вузлів у вже навчених шарах встановлюють з використанням поточних ваг і зміщень. Потім нову ОМБ тренують за описаною вище процедурою. Весь цей процес повторюють, доки не буде досягнуто бажаного критерію зупинки.[13]
Хоч наближення КР до максимальної правдоподібності й грубе (не слідує градієнтові жодної функції), воно емпірично ефективне.[11]
↑Ghasemi, Pérez-Sánchez; Mehri, Pérez-Garrido (2018). Neural network and deep-learning algorithms used in QSAR studies: merits and drawbacks. Drug Discovery Today(англ.). 23 (10): 1784—1790. doi:10.1016/j.drudis.2018.06.016. PMID29936244. S2CID49418479.
↑Ghasemi, Pérez-Sánchez; Mehri, fassihi (2016). The Role of Different Sampling Methods in Improving Biological Activity Prediction Using Deep Belief Network. Journal of Computational Chemistry(англ.). 38 (10): 1—8. doi:10.1002/jcc.24671. PMID27862046. S2CID12077015.