R / машинного обучения алгоритм поиска специальных характеристик? - PullRequest
1 голос
/ 20 мая 2019

Коллега поручил мне задачу, и мне трудно найти возможные решения. Проблема в: У меня есть набор данных, где каждая строка представляет один продукт, который мы здесь производим, и столбцы, которые представляют значения многих различных факторов, которые возникают при его производстве (например, длина, вес, температура и т. Д.). Теперь иногда возникает определенный продукт, который сильно поврежден и не может быть продан покупателю. Поскольку мы не знаем, почему возникают эти дефекты, мы хотим взглянуть на этот набор данных и, используя алгоритмы машинного обучения в R, выяснить, есть ли что-то необычное или необычное в продуктах с дефектом (например, температура, которая намного выше средней и т. Д.). на).

Я предполагаю, что я спрашиваю, есть ли какой-нибудь метод, алгоритм или исследование, на которое кто-нибудь может указать мне, чтобы я мог получить больше информации об этом. Большое спасибо за любую помощь!

1 Ответ

1 голос
/ 20 мая 2019

Есть много разных методов, которые могут удовлетворить ваши потребности. Например, если у вас есть примеры дефектов, помеченные соответствующим образом, вы можете попробовать простую двоичную классификацию, используя стандартный алгоритм машинного обучения (SVM, Наивный Байес, Случайный лес и т. Д.).

Хотя в вашем случае кажется, что алгоритмы обнаружения аномалий могут быть более хитрыми. Идея здесь состоит в том, чтобы обучить классификатор обнаруживать один класс примеров («нормальный» класс), и все, что он не может обнаружить, может быть аномалией или дефектом продукта в вашем случае. Вы можете взглянуть на одноклассную классификацию, используя SVM, реализованную в caret (взгляните на похожие вопросы, такие как Одноклассная классификация с SVM в R ). Другой алгоритм, который вы можете попробовать, - это автоматический кодер для обнаружения аномалий (как описано в Прогнозирование мошенничества с помощью автоматических кодеров и Keras ). Это предполагает, что ошибка восстановления в автоэнкодере примеров дефектов будет выше, чем примеров без дефектов.

Если бы я был на вашем месте, я бы попробовал эти алгоритмы обнаружения аномалий, так как они, кажется, соответствуют вашему описанию проблемы.

Приветствия:)

...