See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Дельта-правило — Википедия

Дельта-правило

Материал из Википедии — свободной энциклопедии

Де́льта-пра́вило — метод обучения перцептрона по принципу градиентного спуска по поверхности ошибки. Дельта-правило развилось из первого и второго правил Хебба и в последствии было математически обобщено и формализовано сообразно развитию идеи перцептрона.

Содержание

[править] Правила Хебба

Перцептрон Розенблатта в первоначальном его исполнении состоял из фотоэлементов, которые, в зависимости от поданного на них сигнала вырабатывали сигнал логической единицы, либо логического нуля. Сигналы с фотоэлементов поступали на взвешенный сумматор (элементарный процессор, искусственный нейрон) с пороговой функцией активации. Нейрон также выдавал сигнал логического нуля, либо логической единицы[1]. Цель обучения перцептрона состояла в том, чтобы при подаче на фотоэлементы закодированного образа на его выходе появлялась логическая единица в случае принадлежности поданного образа к заранее определенному классу и ноль в противном случае. Логика обучения следующая: если сигнал перцептрона при некотором образе верен, то ничего корректировать не надо, если нет — производится корректировка весов сумматора. Правила корректировки весов предложены Хеббом в 1949 году[2] и имеют следующий смысл:

  • Первое правило Хебба — Если сигнал перцептрона неверен и равен нулю, то необходимо увеличить веса тех входов, на которые была подана единица.
  • Второе правило Хебба — Если сигнал перцептрона неверен и равен единице, то необходимо уменьшить веса тех входов, на которые была подана единица.[3]

Правила применяются последовательно для всех образов, на которых производится обучение. На вопрос о том, придет ли перцептрон к устойчивому состоянию, когда он будет корректно классифицировать все входные образы отвечает теорема сходимости Перцептрона.

[править] Дельта-правило

Собственно дельта-правилом называют математическую, несколько более общую форму записи правил Хебба. Пусть вектор \mathbf{X}={x_1,x_2,...x_r,...x_m} — вектор входных сигналов, а вектор \mathbf{D}={d_1,d_2,...d_k,...d_n} — вектор сигналов, которые должны быть получены от перцептрона под воздействием входного вектора. Здесь n — число нейронов, составляющих перцептрон. Входные сигналы, поступив на входы перцептрона, были взвешены и просуммированы, в результате чего получен вектор \mathbf{Y}={y_1,y_2,...y_k,...y_n} выходных значений перцептрона. Тогда можно определить вектор ошибки \mathbf{\Epsilon}={e_1,e_2,...e_k,...e_n}, размерность которого совпадает размерностью вектором выходных сигналов. Компоненты вектора ошибок определяются как разность между ожидаемым и реальным значением выходного сигнала перцептронного нейрона:

\mathbf{\Epsilon=D-Y}

При таких обозначениях формулу для корректировки j-го веса i-го нейрона можно записать следующим образом:

wj(t + 1) = wj(t) + eixj

Номер сигнала j изменяется в пределах от единицы до размерности входного вектора m. Номер нейрона i изменяется в пределах от единицы до количества нейронов n. Величина t — номер текущей итерации обучения. Таким образом, вес входного сигнала нейрона изменяется в сторону уменьшения ошибки пропорционально величине суммарной ошибки нейрона. Часто вводят коэффициент пропорциональности η, на который умножается величина ошибки. Этот коэффициент называют скоростью обучения. Таким образом, итоговая формула для корректировки весов:

wj(t + 1) = wj(t) + ηeixj

[править] Обобщенное дельта-правило

С целью расширения круга задач, решаемых перцептроном, Уидроу и Хоффом[4] была предложена сигмоидальная функция активации для нейронов. Это позволило перцептрону оперировать с непрерывными сигналами, но потребовало модификации алгоритма обучения[5]. Модифицированный алгоритм направлен на минимизацию функции среднеквадратичной ошибки:

\epsilon=\frac{1}{2} \sum^{n}_{i=1}{(d_i-y_i)^2}

Эта функция определяется матрицей весовых коэффициентов wij. Здесь i — номер нейрона, а j — номер входа. Поверхность, описываемая этой функцией имеет форму псевдопараболоида[6]. Задачей обучения является нахождение глобального минимума этой поверхности. Одним из способов нахождения минимума является метод градиентного спуска. Корректировка весов производится в направлении антиградиента поверхности:

\Delta w_{ij}=-\eta \frac {\partial \epsilon}{\partial w_{ij}}

Здесь η — коэффициент скорости обучения.

Функция ошибки является сложной и зависит в первую очередь от выходных сигналов перцептрона. В соответствии с правилами дифференцирования сложных функций:

\frac {\partial \epsilon}{\partial w_{ij}} = \frac{\partial \epsilon}{\partial y_i} \frac{\partial y_i}{\partial w_{ij}} (*)

Выходной сигнал yi каждого нейрона определяется по формуле:

y_i = \operatorname{f}(S), S = \sum^{m}_{j=1}{w_{ij} x_j}

Здесь m — число входов перцептрона, xj — сигнал на j-ом входе, а \operatorname{f}(S) — функция активации. Тогда получим:

\frac{\partial y_i}{\partial w_{ij}}=\frac{\partial \operatorname{f}(S)}{\partial S} \frac {\partial S}{\partial w_{ij}}= f^\prime(S) x_j (**)

Продифференцировав функцию ошибки по значению выходного сигнала получим:

\frac {\partial \epsilon}{\partial y_i}=-(d_i-y_i) (***)

Подставив формулы (**) и (***) в выражение (*) получим выражение для корректировки веса j-го входа у i-го нейрона при любой активационной функции[7]:

\Delta w_{ij} = \eta (d_i-y_i)f^\prime(S_i)x_j

Из этой формулы видно, что в качестве активационной функции при использовании обобщенного дельта-правила функция активации нейронов должна быть непрерывно дифференцируемой на всей оси абсцисс. Преимущество имеют функции активации с простой производной (например — логистическая кривая или гиперболический тангенс).

[править] Примечания

  1. Возможен вариант использования вместо 0,1 сигналов − 1,1
  2. Hebb D.O. — The Organization of Behavior. John Wiley & Sons, New York, 1949
  3. Л. Н. Ясницкий — Введение в искусственный интеллект. — с.30-32
  4. Widrow B., Hoff M.E. — Adaptive switching circuits. 1969 IRE WESTCON Conferencion Record. — New York, 1960
  5. Л. Н. Ясницкий — Введение в искусственный интеллект. — с.34-36
  6. Л. Н. Ясницкий — Введение в искусственный интеллект. — с.35
  7. Л. Н. Ясницкий — Введение в искусственный интеллект. — с.36

[править] См. также

На других языках


aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -