Проблема машинного обучения для отрицательных случаев - PullRequest
2 голосов
/ 24 января 2010

Мне пришлось создать концептуальный анализатор для области компьютерных наук, и я использовал для этого машинного обучения оранжевую библиотеку для Python. У меня есть примеры понятий, где особенностями являются лемма и часть речи, например, алгоритм | NN | концепт. Проблема в том, что любое другое слово, которое на самом деле не является понятием, классифицируется как понятие из-за отсутствия отрицательных примеров. Невозможно поместить все остальные слова в учебный файл, классифицированные как простые слова, а не понятия (это будет работать, но это не совсем решение). Есть идеи?

Спасибо.

1 Ответ

2 голосов
/ 24 января 2010

Вопрос очень неясен, но если предположить, что вы имеете в виду, что ваш алгоритм машинного обучения не работает без отрицательных примеров, и вы не можете дать ему все возможные отрицательные примеры, тогда совершенно нормально дать ему некоторый отрицательных примера.

Смысл интеллектуального анализа данных (например, машинного обучения) состоит в том, чтобы попытаться придумать общие правила, основанные на сравнительно небольших выборках данных, а затем применить их к более крупным данным. В реальных проблемах у вас никогда не будет всех данных. Если бы у вас были все возможные входные данные, вы могли бы легко создать простую последовательность правил if-then, которая всегда была бы правильной. Если бы все было так просто, роботы уже делали бы за нас все наши мысли.

...