Учебный набор - пропорция положительных / отрицательных / нейтральных предложений - PullRequest
3 голосов
/ 13 января 2010

Я отмечаю сообщения в Твиттере как Позитивные, Негативные, Нейтральные. Я пытаюсь оценить, есть ли какая-то логика, которую можно использовать для определения учебного набора, какая пропорция сообщения должна быть положительной / отрицательной и нейтральной?

Так, например, если я тренирую наивный байесовский классификатор с 1000 твиттер-сообщений, то соотношение pos: neg: нейтральное должно быть 33%: 33%: 33% или 25%: 25%: 50%

Логично, что у меня в голове кажется, что я тренирую (то есть даю больше образцов для нейтральных), что система будет лучше определять нейтральные предложения, чем то, являются ли они положительными или отрицательными - это правда? или мне здесь не хватает какой-то теории?

Спасибо Рахул

Ответы [ 2 ]

3 голосов
/ 14 января 2010

Проблема, о которой вы говорите, известна как проблема дисбаланса. Многие алгоритмы машинного обучения работают плохо, когда сталкиваются с несбалансированными учебными данными, то есть когда количество экземпляров одного класса значительно превышает число экземпляров другого класса. Прочитайте эту статью , чтобы получить хорошее представление о проблеме и способах ее решения. Для таких методов, как наивные алгоритмы Байеса или деревья решений, всегда полезно как-то сбалансировать ваши данные, например, случайной передискретизацией (объяснено в справочной статье). Я не согласен с предложением mjv, чтобы тренировочный набор соответствовал пропорциям в реальном мире. Это может быть уместно в некоторых случаях, но я вполне уверен, что это не в вашей обстановке. Для задачи классификации, подобной той, которую вы описываете, чем больше размеры наборов классов различаются, тем больше у большинства алгоритмов ML проблем с распознаванием классов. Тем не менее, вы всегда можете использовать информацию о том, какой класс является самым большим в реальности, считая его запасным вариантом, так что, когда доверие классификатора для конкретного экземпляра низкое или этот экземпляр вообще не может быть классифицирован, вы можете присвоить ему самый большой класс.

Еще одно замечание: нахождение позитивности / негатива / нейтральности в сообщениях Твиттера мне кажется вопросом степени. Таким образом, это может рассматриваться как регрессия, а не проблема классификации, т. Е. Вместо трехклассовой схемы вы, возможно, захотите рассчитать оценку, которая скажет вам , насколько положительно / отрицательно это сообщение.

1 голос
/ 13 января 2010

Существует много других факторов ... но важным (при определении подходящего соотношения и объема обучающих данных) является ожидаемое распределение каждой категории сообщений (положительное, нейтральное, отрицательное) в реальном мире. Фактически, хорошая базовая линия для тренировочного набора (и контрольного набора) -

  • [качественно] как можно более представительный для всего "населения"
  • [количественно] достаточно большой, чтобы измерения, сделанные из таких наборов, были статистически значимыми.

Эффект [относительного] изобилия определенной категории сообщений в обучающем наборе трудно определить; в любом случае это меньший фактор, или скорее очень чувствительный к другим факторам. Улучшения в точности классификатора, в целом или в отношении конкретной категории, как правило, более тесно связаны с конкретной реализацией классификатора (например, являются ли это байесовскими значениями, каковы токены, исключены ли шумовые маркеры, является ли близость фактор, мы используем би-граммы и т. д.), а не просто количественные характеристики учебного набора.

Хотя вышеизложенное обычно является фактологическим, но умеренно полезным для выбора размера и состава тренировочного набора, существует способов определения, постфактум , когда адекватный размер и состав обучающих данных был поставлен.
Одним из способов достижения этого является введение контрольного набора, то есть набора, помеченного вручную, но не являющегося частью обучающего набора, и измерения различных тестовых прогонов с различными поднаборами обучающего набора, отзыва и точности, полученных для каждой категории (или некоторые аналогичные измерения точности), для этого классификация контрольного набора. Когда эти измерения не улучшаются или ухудшаются, помимо того, что является статистически репрезентативным, размер и состав обучающего [поднабора], вероятно, являются правильными (если это не слишком подходящий набор :-(, но это совсем другая проблема. ..)

Этот подход подразумевает, что используется обучающий набор, который может быть в 3–5 раз больше размера необходимого обучающего подмножества, чтобы можно было произвольно (в пределах каждой категории) создать множество различных подмножеств для различных тестов.

...