Применение машинного обучения к параметрам данных обучения - PullRequest
0 голосов
/ 21 февраля 2019

Я новичок в машинном обучении, и я понимаю, что есть параметры и варианты, которые применяются к модели , которую вы подключаете к определенному набору входов, которые можно настраивать / оптимизировать, но эти входыочевидно, привязать к полям, которые вы сгенерировали, разрезая и нарезая кубиками любые исходные данные, которые имеют смысл для you .Но что, если способ, которым вы решили смоделировать и урезать исходные данные и, следовательно, данные обучения, не является оптимальным?Существуют ли способы или инструменты, которые расширяют возможности машинного обучения не только для модели, но и для того, каким образом данные обучения были созданы в первую очередь?

Скажем, вы анализируете акселерометр, GPS, частоту пульса и окружениеданные топографии кого-то движется.Вы хотите попытаться определить, где этот человек, вероятно, истощится и остановится, предполагая, что он будет продолжать двигаться по прямой линии, основываясь на их траектории, и что подъем на любой холм увеличит сердечный ритм до некоторой точки, где он должен остановиться.Если они бегут или ходят, очевидно, изменяют эти вещи.

Таким образом, вы сокращаете свои данные и не стесняетесь исправлять то, как вы это делаете, но это не имеет отношения к основному вопросу:

  • Нарезать необработанные данные акселерометра по осям X, Y, Z за прошедшее время A количество секунд до B количество фрагментов, чтобы попытаться профилировать его, возможно, применяя к нему CNN, чтобы определить, работает ли он или гуляет
  • Отрезать последние C секунд необработанных данных GPSв последовательность из D (широта, долгота) пар, каждая пара представляет среднее значение E секунд необработанных данных
  • На основе предыдущей последовательности , определить скорость и траекторию, а также определить предстоящий наклон, нарезая следующее F расстояние (или секунды, другой вариантопределить из G ) в H количество срезов, профилирование каждого и т. д..

Вы поняли идею.Как эффективно определить A - H , некоторые из которых могут полностью изменить количество и поведение входов модели?Я хочу устранить любую предвзятость, которая у меня есть, относительно того, что правильно, и позволить ей определять сквозное.Есть ли практические решения для этого?Каждый раз, когда он изменяет параметры создания данных, возвращайтесь назад, заново генерируйте обучающие данные, вводите их в модель, обучайте их, настраивайте снова и снова, пока не получите лучший результат.

1 Ответ

0 голосов
/ 21 февраля 2019

То, что вы называете своим уклоном , на самом деле является самой большой силой, которую вы имеете.Вы можете включить свои знания о системе.Машинное обучение, включая великолепное глубокое обучение , прямо скажем, глупо .Хотя он может определить для вас особенности, их интерпретация будет затруднена.

Кроме того, особенно глубокое обучение, обладает большой способностью запоминать (а не учиться!) Паттерны, облегчая адаптацию к тренировочным данным.Создание моделей машинного обучения, которые хорошо обобщают в реальном мире, очень сложно.

В большинстве успешных подходов (проверка на Master Kagglers) люди создают функции.В вашем случае я бы, вероятно, хотел бы рассчитать величину и вектор силы.В зависимости от типа сценария, я мог бы преобразовать (Lat, Long) в расстояние от конкретной точки (скажем, точка начала / активации или установить каждую 1 минуту) или, возможно, использовать другую систему координат.

Поскольку ваши данные во временных рядах, я бы, вероятно, использовал что-то хорошо подходящее для моделирования временных рядов, которое вы можете понять и устранить.CNN и такие, как правило, ваше последнее средство в большинстве случаев.

Если вы действительно хотите автоматизировать его, отметьте, например, Auto Keras или ludwig .Когда дело доходит до изучения того, какие функции наиболее важны, я бы рекомендовал использовать повышение градиента (GBDT).

Я бы рекомендовал прочитать эту статью из AirBnB , котораяглубже погружается в процесс создания таких систем и разработки функций.

...