Непрерывный против дискретных искусственных нейронных сетей - PullRequest
11 голосов
/ 18 июня 2010

Я понимаю, что это, вероятно, очень нишевый вопрос, но есть ли у кого-нибудь опыт работы с непрерывными нейронными сетями? Я особенно заинтересован в том, что непрерывная нейронная сеть может быть полезна для того, для чего вы обычно используете дискретные нейронные сети.

Для ясности я поясню, что я подразумеваю под непрерывной нейронной сетью, поскольку, как я полагаю, это можно интерпретировать как означающее разные вещи. Я не имею в виду, что функция активации является непрерывной. Скорее я намекаю на идею увеличения количества нейронов в скрытом слое до бесконечного количества.

Итак, для ясности, вот архитектура вашего типичного незаметного NN: alt text x - входные данные, g - активация скрытого слоя, v - веса скрытого слоя, w - веса выходного слоя, b - это значение смещение и, по-видимому, выходной слой имеет линейную активацию (а именно, нет.)

Разница между дискретным NN и непрерывным NN изображена на этом рисунке: alt text То есть вы позволяете числу скрытых нейронов становиться бесконечным, так что ваш конечный результат является интегральным. На практике это означает, что вместо вычисления детерминированной суммы вы должны аппроксимировать соответствующий интеграл квадратурой.

Очевидно, распространенное заблуждение с нейронными сетями заключается в том, что слишком большое количество скрытых нейронов производит чрезмерную аппроксимацию.

Мой вопрос, в частности, учитывая это определение дискретных и непрерывных нейронных сетей, мне было интересно, имел ли кто-нибудь опыт работы с последними и для каких вещей они их использовали.

Дальнейшее описание по теме можно найти здесь: http://www.iro.umontreal.ca/~lisa/seminaires/18-04-2006.pdf

Ответы [ 4 ]

2 голосов
/ 24 июня 2010

Термин не совсем прижился в литературе по машинному обучению, что объясняет всю путаницу.Кажется, что это был единый документ, интересный, но на самом деле это ни к чему не привело, что может означать несколько вещей;автор, возможно, просто потерял интерес.

Я знаю, что Байесовские нейронные сети (со счетным количеством скрытых единиц, статья «непрерывных нейронных сетей» простирается до несчетного случая) были успешно использованы Рэдфордом Нилом (см. его тезис все об этом материале), чтобы выиграть конкурс выбора функций NIPS 2003 с использованием байесовских нейронных сетей.

2 голосов
/ 23 июня 2010

Я думаю, что это либо представляет интерес только для теоретиков, пытающихся доказать, что ни одна функция не выходит за пределы аппроксимационной мощности архитектуры NN, или это может быть предложение о методе построения кусочно-линейного приближения (посредством обратного распространения)функция.Если это последнее, я думаю, что существуют существующие методы, которые намного быстрее, менее восприимчивы к локальным минимумам и менее подвержены переоснащению, чем обратное распространение.

Мое понимание NN состоит в том, что соединения и нейроны содержат сжатое представлениеданных, на которых он обучен.Ключ в том, что у вас большой набор данных, который требует больше памяти, чем «общий урок», который характерен для каждого примера.NN, предположительно, является экономичным контейнером, который извлечет этот общий урок из этого огромного корпуса.

Если у вашего NN достаточно скрытых единиц для плотной выборки исходной функции, это эквивалентно тому, что ваш NN достаточно велик, чтобы запомнитьучебный корпус (в отличие от обобщения).Думайте о тренировочном корпусе как о образце исходной функции с заданным разрешением.Если у NN достаточно нейронов для выборки функции с еще более высоким разрешением, чем у вашего тренировочного корпуса, тогда система не будет вынуждена обобщать, потому что это не ограничено числом нейронов.

Поскольку никакое обобщение не вызывается и не требуется, вы также можете просто запомнить корпус, сохраняя все свои тренировочные данные в памяти и используя k-ближайший сосед, который будет всегда работать лучше, чем любой NN, и всегда будетработать так же хорошо, как и любой NN, даже если разрешение выборки NN приближается к бесконечности.

2 голосов
/ 18 июня 2010

В прошлом я работал над несколькими исследовательскими проектами с использованием непрерывных NN. Активация осуществлялась с использованием биполярного гиперболического загара, сеть брала несколько сотен входных данных с плавающей запятой и выводила около ста значений с плавающей запятой.

В этом конкретном случае целью сети было изучение динамических уравнений минерального состава. Сеть получила текущее состояние поезда и прогнозируемую скорость, межвагонную динамику и другое поведение поезда через 50 секунд в будущем.

Обоснование этого конкретного проекта было главным образом о производительности. Это было предназначено для встроенного устройства, и оценка NN была намного более дружественной к производительности, чем решение традиционной системы ОДУ (обыкновенного дифференциального уравнения).

Как правило, непрерывный NN должен уметь изучать любые функции. Это особенно полезно, когда невозможно / чрезвычайно трудно решить систему с использованием детерминированных методов. В отличие от бинарных сетей, которые часто используются в целях распознавания / классификации.

Принимая во внимание их недетерминированную природу, NN любого типа являются раздражительными зверями, выбор правильных типов входов / сетевой архитектуры может быть несколько черным искусством.

1 голос
/ 21 июня 2010

Нейронные сети с прямой связью всегда являются «непрерывными» - это единственный способ, которым на самом деле работает обратное распространение (вы не можете осуществлять обратное распространение с помощью дискретной / пошаговой функции, поскольку она не дифференцируема при пороге смещения).

Возможно, у вас есть дискретное (например, «однократное») кодирование входного или целевого выхода, но все вычисления являются непрерывными. Выход может быть ограничен (то есть с выходным слоем softmax, так что выходы всегда суммируются с единицей, как обычно в настройке классификации), но, опять же, все еще непрерывен.

Если вы имеете в виду сеть, которая прогнозирует непрерывную, неограниченную цель - подумайте о любой проблеме прогнозирования, в которой «правильный ответ» не является дискретным, и модели линейной регрессии будет недостаточно. Рекуррентные нейронные сети в разное время были модным методом для различных приложений финансового прогнозирования, например.

...