Существует много других факторов ... но важным (при определении подходящего соотношения и объема обучающих данных) является ожидаемое распределение каждой категории сообщений (положительное, нейтральное, отрицательное) в реальном мире. Фактически, хорошая базовая линия для тренировочного набора (и контрольного набора) -
- [качественно] как можно более представительный для всего "населения"
- [количественно] достаточно большой, чтобы измерения, сделанные из таких наборов, были статистически значимыми.
Эффект [относительного] изобилия определенной категории сообщений в обучающем наборе трудно определить; в любом случае это меньший фактор, или скорее очень чувствительный к другим факторам. Улучшения в точности классификатора, в целом или в отношении конкретной категории, как правило, более тесно связаны с конкретной реализацией классификатора (например, являются ли это байесовскими значениями, каковы токены, исключены ли шумовые маркеры, является ли близость фактор, мы используем би-граммы и т. д.), а не просто количественные характеристики учебного набора.
Хотя вышеизложенное обычно является фактологическим, но умеренно полезным для выбора размера и состава тренировочного набора, существует способов определения, постфактум , когда адекватный размер и состав обучающих данных был поставлен.
Одним из способов достижения этого является введение контрольного набора, то есть набора, помеченного вручную, но не являющегося частью обучающего набора, и измерения различных тестовых прогонов с различными поднаборами обучающего набора, отзыва и точности, полученных для каждой категории (или некоторые аналогичные измерения точности), для этого классификация контрольного набора. Когда эти измерения не улучшаются или ухудшаются, помимо того, что является статистически репрезентативным, размер и состав обучающего [поднабора], вероятно, являются правильными (если это не слишком подходящий набор :-(, но это совсем другая проблема. ..)
Этот подход подразумевает, что используется обучающий набор, который может быть в 3–5 раз больше размера необходимого обучающего подмножества, чтобы можно было произвольно (в пределах каждой категории) создать множество различных подмножеств для различных тестов.