Сети с самоорганизацией на основе конкуркнции

Содержание

Введение
Меры расстояний между векторами
Нормализация векторов
Проблема мертвых нейронов
Алгоритмы обучения
- Алгоритм Кохонена
- Алгоритм нейронного газа
Применение
Гибридная сеть

Введение

Сетями с самоорганизацией называются сети, не требующие для своего обучения "учителя" и самостоятельно адаптирующие свои веса под обучающие данные. Такие сети строятся из нейронов типа WTA и подобных им. Как правило, это однослойные сети, в которых каждый нейрон получает все компоненты входного вектора X размерностью N. На рисунке представлена структурная схема такой сети.

Веса входных связей i-ого нейрона образуют вектор

W_i=[w_i1, w_i2, ..., w_iN]^T

Кроме связей, явно представленных в схеме, на этапе обучения имеют место связи между нейронами, позволяющие судить о степени "соседства" нейронов друг с другом, при этом смысл понятия "соседство" может быть разным. Такие сети часто требуют нормализации значений входного вектора.

Укрупненно процесс обучения сети выглядит следующим образом. На вход сети подается обучающий вектор X^k, для каждого нейрона определяется d(X^k, W_i) - расстояние (в смысле выбранной метрики) между векторами X^k и W_i. Определяется нейрон-победитель, для которого это расстояние оказывается наименьшим. Вокруг нейрона-победителя образуется окрестность S^k_w из нейронов-соседей с известным "расстоянием" до победителя. Веса нейрона-победителя и веса его соседей из S^k_w уточняются, например, по правилу Кохонена

W^k+1_i=W^k_i+nu^k_i*(X^k-W^k_i), где nu^k_i - коэффициент обучения, значение которого уменьшается с увеличением расстояния от i-ого нейрона до победителя. Веса нейронов вне S^k_w не изменяются. Размер окрестности S^k_w и величина nu^k_i с течением времени обучения уменьшаются.

Меры расстояний между векторами

В качестве меры измерения расстояния между векторами чаще всего используются:

эвклидова мера d(X, W_i)=|X-W_i|₂=sqrt(sum[j=1:N]((x_j-w_ij)²));
скалярное произведение d(X, W_i)=1-X.W_i=1-|X|₂*|W_i|₂*cos(X, W_i);
манхэттеновское расстояние d(X, W_i)=sum[j=1:N](|x_j-w_ij|);
m-норма d(X, W_i)=max_j(|x_j-w_ij|).

Нормализация векторов

Экспериментальные исследования подтвердили необходимость нормализации входных векторов при малой размерности пространства (N<5), с увеличением размерности входного вектора эффект нормализации становится все менее заметным, а при больших векторах (N>200) она перестает оказывать влияние на процесс обучения и функционирования сети.

Для проведения нормализации предлагается два способа:

переопределение компонентов вектора по формуле x_j<-x_j/sqrt(sum[i=1:N](x_i²)),
добавление в вектор N+1 компонента так, чтобы sum[j=1:N+1](x_j²)=1.

При использовании второго способа возникает, как правило, необходимость предварительного масштабирования компонентов исходного вектора X.

Проблема мертвых нейронов

При "слепом" (как правило, случайном) выборе начальных значений весов часть нейронов может оказаться в области пространства, в которой отсутствуют обучающие данные или где их количество ничтожно мало. Такие нейроны имеют очень мало шансов на победу в конкурентной борьбе и адаптацию своих весов, вследствие чего они остаются мертвыми. В итоге уменьшается количество активных нейронов, участвующих в анализе входных данных, и, следовательно, увеличивается погрешность их интерпретации , называемая погрешностью квантования. Встает проблема активации всех нейронов сети на этапе обучения.

Такую активацию можно осуществить, базируясь на учете количества побед, одержанных каждым нейроном в ходе обучения. Существуют разные механизмы такого учета.

В одном из таких подходов каждому нейрону сети приписывается потенциал p_i, значение которого модифицируется после предъявления каждого обучающего вектора X^k по следующей формуле (в ней w - индекс нейрона-победителя):

p^k+1_i=p^k_i+1/M для i!=w,
p^k+1_i=p^k_i-p_min для i=w, где p_min - минимальный потенциал, разрешающий участие в конкурентной борьбе. Максимальное значение потенциала устанавливается равным 1. На практике хорошие результаты получены для p_min=0,75.

В другом подходе для выявления победителя в конкурентной борьбе предлагается использовать не фактические значения расстоянии между векторами d(X^k, W_i), а величины, промасштабированные количеством побед N^w_i*d(X^k, W_i), где N^w_i - количество побед, одержанных i-м нейроном к текущему моменту.

Как показали эксперименты, при использовании описанных выше механизмов двух-трех циклов обучения обычно достаточно для активации всех нейронов сети, поэтому в последующих циклах эти механизмы отключаются.

Алгоритмы обучения

Целью обучения сети с самоорганизацией на основе конкуренции является минимизация погрешности квантования

E_q=(1/p)*sum[k=1:p](d(X^k, W_w(k))), где p - количество обучающих векторов X^k, W_w(k) - вектор весов нейрона-победителя при предъявлении вектора X^k.

Примеры результатов обучения, близких к оптимальным, представлены ниже на рисунках. Используются сети с 15 и 22 нейронами и двухкомпонентным входным вектором X=[x₁, x₂]^T. На левых рисунках представлено распределение данных в обучающих выборках, на правых - распределение весов нейронов обученной сети.

Для обучения сетей с самоорганизацией на основе конкуренции наибольшее распространение получили два описываемых ниже алгоритма.

Алгоритм Кохонена

В нейронных сетях, предложенных Т. Кохоненом (1982 г.), соседство нейронов носит топологический характер. В простом случае нейроны слоя Кохонена образуют одномерную цепочку, при этом каждый нейрон имеет, в общем случае, двух ближайших соседей (слева и справа). В более сложном случае нейроны Кохонена образуют двумерную сетку с четырьмя соседями у каждого нейрона (слева, справа, сверху, снизу). В еще более сложном случае сетка гексагональна - у каждого нейрона шесть соседей на плоскости (по циферблату часов - 2, 4, 6, 8, 10, 12 часов).

Коррекция весов нейронов в ходе обучения выполняется по формуле

W^k+1_i=W^k_i+nu^k_i*G^k(i,X^k)*(X^k-W^k_i). где функция соседства G^k(i,X^k) определяется, как правило, формулой Гаусса в виде G^k(i,X^k)=exp(-d²(i,X^k)/(2*(s^k)²)), где d(i,X^k) - расстояние от i-ого нейрона до нейрона-победителя с индексом w^k в k-ом цикле обучения. При этом d(w^k,X^k)=0, d(i,X^k)=1 для всех ближайших соседей w^k, d(i,X^k)=2 для всех "внешних" ближайших соседей ближайших соседей нейрона победителя с индексом w^k и так далее.

Как обычно, коэффициент обучения nu^k_i и параметр ширины функции Гаусса s^k уменьшаются в ходе обучения (с ростом k).

В результате обучения слоя Кохонена по такому алгоритму топологически соседние нейроны становятся типичными представителями кластеров обучающих данных, соседствующих в многомерном пространстве. В этом достоинство сетей Кохонена, называемых также картами Кохонена, - наглядность в представлении (путем одномерной или двумерной визуализации) многомерных данных.

Алгоритм нейронного газа

В этом алгоритме адаптация весов выполняется по той же формуле:

W^k+1_i=W^k_i+nu^k_i*G^k(i,X^k)*(X^k-W^k_i).

В каждом цикле обучения все нейроны сортируются в последовательности возрастания расстояния d(X^k, W_i)

d₀<d₁<...<d_j<...<d_M-1. где j=m(i) - номер i-ого нейрона в последовательности. Для нейрона-победителя m(i)=0.

Значение функции соседства i-ого нейрона G^k(i,X^k) определяется следующим выражением:

G^k(i,X^k)=exp(-m(i)/s^k), где s^k определяет уровень соседства и является величиной, уменьшающейся по ходу обучения. При s^k, стремящемся к 0, алгоритм превращается в алгоритм WTA.

Для достижения хороших результатов самоорганизации сети обучение должно начинаться с большого значения s^k, которое с течением времени обучения уменьшается до 0. Для такого уменьшения s^k предлагается использовать выражение

s^k=s^max*(s^min/s^max)^k/k_max, где k_max - максимальное заданное количество циклов обучения.

Коэффициент обучения nu^k_i тоже может уменьшаться с течением времени обучения, это уменьшение может быть линейным от nu_max в первом цикле до nu_min в цикле k_max, так и показательно в соответствии с формулой

nu^k=nu^max*(nu^min/nu^max)^k/k_max.

Применение

Очевидным практическим приложением сетей с самоорганизацией является сжатие (с потерями) данных, в частности, покадровое сжатие изображений.

В процессе обучения сети последовательно предъявляются кадры изображения A. Похожие кадры обеспечивают победу одного и того же нейрона, корректирующего свои веса с сторону усреднения всех векторов входных данных, составляющих кластер "похожих" кадров. По окончании обучения веса каждого нейрона определяют образ некоторого "стереотипного" кадра.

При функционировании обученной сети в режиме компрессии данных ей предъявляются кадры сжимаемого изображения B. В результате расчета расстояний d(X^k,W_i) выявляется нейрон-победитель. Покадровая последовательность номеров нейронов-победителей вместе с весами всех нейронов сети и представляет собой сжатое изображение.

Декомпрессия (восстановление) изображения B легко реализуется "склеиванием" стереотипных образов нейронов, составляющих кодовую последовательность.

Желательно, чтобы обучающее изображение A и сжимаемое изображение B принадлежали одному типу (фотография, рисунок из учебника, чертеж, живопись и т.д.).

Важным свойством сетей с самоорганизацией на основе конкуренции является способность к кластеризации данных и их распознаванию. Это обеспечивает их широкое применение для решения задач диагностики, например, неисправностей оборудования.

Гибридная сеть

Способность сетей с самоорганизацией на основе конкуренции представлять большие группы данных, объединенные в кластер, единственным вектором весов нейрона-победителя дает возможность строить высокоэффективные гибридные сети аппроксимации данных (для чего сети с самоорганизацией как таковые не приспособлены).

Структурная схема гибридной сети представлена ниже.

Обучение гибридной сети состоит из двух независимых этапов, следующих один за другим.

1. Сначала на множестве входных векторов стандартным образом обучается сеть с самоорганизацией. По завершении обучения веса всех нейронов фиксируются. В дальнейшем выходные сигналы нейронов рассчитываются следующим образом:

v_l=exp(-((u_w-u_l)/s)²), где u_w - взвешенная сумма сигналов нейрона-победителя, s индивидуально подбирается для каждой задачи.

2. Далее стандартным образом обучается с учителем многослойный персептрон. Для обучения используются пары <V^k,D^k>, где V^k - это вектор выходных сигналов сети с самоорганизацией, полученный при подаче на ее вход вектора X^k из оригинальной пары <X^k,D^k>.