Передача обучения для небольших наборов данных структурированных данных - PullRequest
1 голос
/ 07 марта 2020

Я хочу внедрить машинное обучение для решения проблем, которые основаны на небольших наборах данных, связанных с утверждением расходов в определенной c области цепочки поставок. Типично помеченные данные недоступны

Я искал, чтобы построить модели в одном наборе данных, который я обозначил данными, а затем использовать эту модель, разработанную в аналогичном контексте - где набор функций очень похож, но не идентичен . Ожидается, что это станет отправной точкой для рекомендаций и сбора помеченных данных в новом контексте.

Я понимаю, что в этом суть трансферного обучения. Большинство примеров, которые я читал в этой области, говорят о наборах данных изображений - любые указания, как это можно использовать в небольших наборах данных с использованием стандартных алгоритмов классификации на основе дерева

Ответы [ 4 ]

0 голосов
/ 11 апреля 2020

После некоторых исследований мы решили приступить к моделям случайных лесов, полагая, что деревья в исходной модели, имеющие общие черты, станут отправной точкой для принятия решений.

По мере того, как мы получим больше помеченных данных в новом контексте, мы начнем заменять исходные деревья новыми деревьями, которые включают (а) только новые функции и (б) комбинацию старых и новых функций

Это работало, чтобы обеспечить разумные результаты в начальных испытаниях

0 голосов
/ 09 марта 2020

Хорошо, с помощью основанных на деревьях алгоритмов вы можете делать то, что говорили: обучите дерево для одного набора данных и примените его к другому аналогичному набору данных. Все, что вам нужно сделать, это изменить условия / узлы во втором дереве.

Например, предположим, у вас есть дерево решений, обученное для фильтрации расходов для строительной компании. Вы будете категорически отрицать любые компенсации за рабочие ботинки, потому что работники должны сами их предоставлять.

Вы хотите использовать обученное дерево в своей бухгалтерской фирме, и поэтому вместо рабочих ботинок вы меняете этот термин на ноутбуки, потому что бухгалтеры должны покупать свои собственные.

Имеет ли это смысл, и это полезно для вас?

0 голосов
/ 09 марта 2020

raghu, я думаю, что вы ищете метод ядра, когда говорите об уровне абстракции в глубоком обучении. Существует несколько алгоритмов ML, которые поддерживают функции ядра. С помощью функций ядра вы можете сделать это; но использование функций ядра может быть более сложным, чем решение исходной проблемы. Я бы склонялся к предложению Tdog go об использовании дерева решений.

Извините, я хочу добавить комментарий, но они не позволят мне, поэтому я отправил новый ответ.

0 голосов
/ 08 марта 2020

Я не могу говорить с древовидными алгоритмами, я не знаю, как с ними перенести обучение. Но для моделей с глубоким обучением обычным методом передачи обучения является загрузка предварительно обученной модели, затем переобучение последнего слоя набора данных с использованием ваших новых данных, а затем точная настройка остальной части сети.

Если у вас нет большого количества данных для go, вы можете заняться созданием синтетических c данных.

...