Это действительно зависит от набора данных, модели, реальной проблемы / вопроса и желаемой точности / ошибки. Если взять пример спама по электронной почте, наивный байесовский метод является очень распространенным методом решения проблемы такого типа и требует относительно небольшого количества данных для получения «разумной» точности (разумной, определяемой клиентом / заинтересованным лицом).
30 000 выборок - это набор данных довольно приличного размера для мелкомасштабных обучающих классификаторов (хотя, конечно, это зависит от качества данных, например, количества пропущенных значений, ошибок, выбросов и т. Д.) Я бы не стал беспокоиться о добавлении дополнительных продуктов, пока вы не увидите, как классификатор работает с данными, которые у вас уже есть.
Поэтому я бы начал с одного продукта и попробовал модели, которые хорошо работают с меньшими объемами данных, такие как Наивный байесовский (NB) и Классификаторы опорных векторов (SVC) и Посмотрите, соответствует ли полученная точность вашему применению. Если это не так, у вас есть два варианта: больше данных и другие подходы к моделированию. Для получения дополнительных данных вы можете попробовать добавлять другие продукты постепенно и оценивать полученную точность. Вы можете попробовать использовать модель кластеризации, например, K-средства для выбора (выборки) продуктов, если неясно, какие продукты, вероятно, было бы наиболее полезно добавить. Вы также можете попробовать смоделировать больше данных для интересующего вас продукта, возможно, используя другие продукты в качестве основы для моделирования. Главное, чтобы у вас была базовая точность по одному продукту, чтобы оценить, помогают ли дополнительные данные. Для других подходов к моделированию вы можете попробовать ансамблирование - просто хорошее взвешенное усреднение моделей SVC и NB будет хорошим началом для начала - или совсем другие алгоритмы.
Помните, что для небольших наборов данных риск переоснащения и восприимчивости к выбросам повышается, поэтому очень важен тщательный выбор функций / разработка и хорошая дисциплина с набором dev / test и validation.