Де́льта-пра́вило — метод обучения перцептрона по принципу градиентного спуска по поверхности ошибки. Его дальнейшее развитие привело к созданию метода обратного распространения ошибки.
Собственно дельта-правилом называют математическую форму записи. Пусть вектор
— вектор входных сигналов, а вектор
— вектор сигналов, которые должны быть получены от перцептрона под воздействием входного вектора. Здесь
— число нейронов, составляющих перцептрон. Входные сигналы, поступив на входы перцептрона, были взвешены и просуммированы, в результате чего получен вектор
выходных значений перцептрона. Тогда можно определить вектор ошибки
, размерность которого совпадает с размерностью вектора выходных сигналов. Компоненты вектора ошибок определяются как разность между ожидаемым и реальным значением выходного сигнала перцептронного нейрона:
При таких обозначениях формулу для корректировки j-го веса i-го нейрона можно записать следующим образом:
Номер сигнала
изменяется в пределах от единицы до размерности входного вектора
. Номер нейрона
изменяется в пределах от единицы до количества нейронов
. Величина
— номер текущей итерации обучения. Таким образом, вес входного сигнала нейрона изменяется в сторону уменьшения ошибки пропорционально величине суммарной ошибки нейрона. Часто вводят коэффициент пропорциональности
, на который умножается величина ошибки. Этот коэффициент называют скоростью или нормой[1] обучения. Таким образом, итоговая формула для корректировки весов:
С целью расширения круга задач, решаемых перцептроном, Уидроу и Хоффом[2] была предложена сигмоидальная функция активации для нейронов. Это позволило перцептрону оперировать с непрерывными сигналами, но потребовало модификации алгоритма обучения[3]. Модифицированный алгоритм направлен на минимизацию функции среднеквадратичной ошибки:
Эта функция определяется матрицей весовых коэффициентов
. Здесь
— номер нейрона, а
— номер входа. Поверхность, описываемая этой функцией имеет форму псевдопараболоида[4]. Задачей обучения является нахождение глобального минимума этой поверхности. Одним из способов нахождения минимума является метод градиентного спуска. Корректировка весов производится в направлении антиградиента поверхности:
Здесь
— коэффициент скорости обучения.
Функция ошибки является сложной и зависит в первую очередь от выходных сигналов перцептрона. В соответствии с правилами дифференцирования сложных функций:
(*)
Выходной сигнал
каждого нейрона определяется по формуле:
Здесь
— число входов перцептрона,
— сигнал на j-ом входе, а
— функция активации. Тогда получим:
(**)
Продифференцировав функцию ошибки по значению выходного сигнала получим:
(***)
Подставив формулы (**) и (***) в выражение (*) получим выражение для корректировки веса j-го входа у i-го нейрона при любой активационной функции[5]:
Из этой формулы видно, что в качестве активационной функции при использовании обобщенного дельта-правила функция активации нейронов должна быть непрерывно дифференцируемой на всей оси абсцисс. Преимущество имеют функции активации с простой производной (например — логистическая кривая или гиперболический тангенс).
На основе дельта-правила Уидроу и Хопфом был создан один из первых аппаратных нейрокомпьютеров Адалин (1960).
- ↑ Nielsen, Michael A. Neural Networks and Deep Learning. — 2015-01-01. Архивировано 6 сентября 2016 года.
- ↑ Widrow B., Hoff M.E. — Adaptive switching circuits. 1969 IRE WESTCON Conferencion Record. — New York, 1960
- ↑ Л. Н. Ясницкий — Введение в искусственный интеллект. — с.34-36
- ↑ Л. Н. Ясницкий — Введение в искусственный интеллект. — с.35
- ↑ Л. Н. Ясницкий — Введение в искусственный интеллект. — с.36
- Rosenblatt F. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Washington, DC: Spartan Books (1962).
- Russell, Ingrid. "The Delta Rule". University of Hartford. Archived from the original on 4 March 2016. Retrieved 5 November 2012.
- Головко, В. А. Нейронные сети: обучение, организация и применение: Кн.4 : Учебное пособие для вузов по направлению "Прикладные математика и физика" / В. А. Головко ; Общ. ред. А. И. Галушкин . – М. : ИПРЖР, 2001 . – 256 с. – (Нейрокомпьютеры и их применение) : 5-93108-05-8 .
- Осовский С. Нейронные сети для обработки информации (2002)
- Hebb, D. O. The organization of behavior: a neuropsychological theory. New York (2002) (Оригинальное издание — 1949)
- Hebb, D. O. Conditioned and unconditioned reflexes and inhibition. Unpublished MA Thesis, McGill University, Montreal, Quebec, (1932)
- Lakhmi C. Jain; N.M. Martin Fusion of Neural Networks, Fuzzy Systems and Genetic Algorithms: Industrial Applications. — CRC Press, CRC Press LLC, 1998