Различия между результатом алгоритма машинного обучения? - PullRequest
0 голосов
/ 25 октября 2019

Я работаю над проектом интеллектуального анализа текста, в котором я использую набор данных твитов с ярлыками (да или нет твиты, связанные с землетрясениями, включают 8000 образцов) для обучения наивных, MLP (Deep Learning) классификаторов LibSVM для классификации (да или нет) твитов без меток(28000 образцов) на RapidMiner. Вот результат трех алгоритмов машинного обучения:

Наивный

Точность = 80%

Количество твитов с надписью "да" = 6056

MLP

Точность = 86%

Количество твитов с пометкой "да" = 2300

LibSVM

Точность = 92%

Количество твитов с надписью "да" = 53

У меня вопрос, почему количество помеченных твитов резко отличается?

1 Ответ

2 голосов
/ 25 октября 2019

Я предполагаю, что точность, которую вы даете, зависит от процесса построения модели на вашем помеченном наборе данных. Это показывает, насколько хорошо обученные модели могут «воспроизводить» правильные метки ваших тренировочных данных. Большая разница в количестве назначенных ярлыков на ваших неизвестных немаркированных твитах, по-видимому, указывает на серьезные проблемы с переналадкой в ​​ваших моделях. Это означает, что модели очень хорошо обучены воспроизводить обучающие данные, но не могут обобщать новые, неизвестные данные.

В качестве первого предложения проверьте свои шаги проверки. Существуют базовые методы, такие как перекрестная проверка, которые пытаются избежать переобучения, но есть много возможностей «обмануть» себя, введя знания о своем тестовом наборе в свои тренировочные данные.

Однако без конкретной настройки процесса мымогу только догадываться.

...