Вам следует попробовать несколько способов превратить ваши предложения в «векторы функций». Здесь нет жестких правил; то, что лучше всего подходит для вашего проекта, будет во многом зависеть от ваших конкретных c данных, проблемных областей и целей классификации.
(Не экстраполируйте рекомендации из других ответов - например, того, который вы связали речь идет о сходстве документов, а не о классификации - как о лучших практиках для вашего проекта.)
Чтобы начать сначала, вы можете сначала сосредоточиться на некотором простом аспекте «двоичной классификации» своих данных. Например, выберите одну метку. Тренируйтесь на всех текстах, просто пытаясь предсказать, подходит ли этот ярлык или нет
Когда у вас есть такая работа, и вы понимаете каждый шаг - подготовку корпуса, обработку текста, векторизацию объектов, обучение классификации, оценку классификации - тогда вы можете попробовать расширить / адаптировать эти шаги для классификация по одной метке (где каждый текст должен иметь ровно одну уникальную метку) или классификация по нескольким меткам (где каждый текст может иметь любое количество комбинированных меток).